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大 数据 作为 一 种 重要 的 战略 资产 ,已 经 不 同 程度 地 渗透 到 各 个 行业 领域 和 部 门 ,其 深度 
应 用 不 仅 有 助 于 企业 经 营 活动 ,还 有 利于 推动 国民 经 济 发 展 。 大 数据 的 快速 发 展 使 它 成 为 
IT 领域 的 又 一 大 新 兴 产 业 。 

大 数据 目前 在 很 多 的 行业 都 有 应 用 ,包括 大 科学 (Megascience) ,RFID、 感 测 设备 网 络 、 
天 文学 ,大 气 学 .基因 组 学 .生物 学 ,大 社会 数据 分 析 、 互 联网 文件 处 理 、 制 作 互联 网 搜索 引擎 
索引 ,通信 记录 明细 、 军 事 侦察 ,社交 网 络 、 通 勤 时 间 预 测 、 医 疗 记录 、 照 片 图像 和 视频 封存 、 
大 规模 电子 商务 等 。 
对 大 数据 的 处 理 分 析 正 在 成 为 新 一 代 信息 技术 融合 应 用 的 节点 。 移 动 互 联网 、 物 联网 、 
社交 网 络 ,数字 家 庭 、 电 子 商务 等 是 新 一 代 信息 技术 的 应 用 形态 ,这 些 应 用 不 断 产 生 大 数据 。 
云 计 算 为 这 些 海量 、 多 样 化 的 大 数据 提供 存储 和 运算 平台 。 通 过 对 不 同 来 源 数据 的 管理 、 处 
理 、 分 析 与 优化 ,将 结果 反馈 到 上 述 应 用 中 ,创造 出 巨大 的 经 济 和 社会 价值 。 
此 ,了 解 大 数据 的 概念 ,掌握 与 大 数据 相关 的 技术 ,对 于 计算 机 专业 的 学 生来 说 是 十 
分 必要 的 。 

本 书 从 理论 结合 实践 的 角度 ,讲解 大 数据 的 概念 和 技术 。 读 者 从 本 书 可 以 了 解 到 什么 
是 大 数据 ,大 数据 的 特征 ,大 数据 的 作用 与 应 用 .大 数据 的 技术 与 分 析 、 集 成 数据 管理 ,大 数 
据 环 境 下 的 安全 与 治理 、 大 数据 相关 技术 的 使 用 等 知识 。 

本 书 共 分 为 7 章 。 

第 1 章 介绍 什么 是 大 数据 ,大 数据 的 特征 ,大 数据 的 作用 与 具体 应 用 .大 数据 的 技术 与 
大 数据 的 分 析 。 

第 2 章 通过 实例 详细 讲解 Data Studio 的 使 用 方法 。 

第 3 章 介绍 DB2 5 JDBC 支持 ,讲解 DB2、UDB 和 JDBC 的 通用 驱动 程序 。 

第 4 章 详细 讲解 集成 数据 管理 的 知识 ,包括 集成 数据 管理 的 基本 知识 .数据 建 模 和 设 
计 、 数 据 模型 管理 . 主 数据 管理 .元 数据 管理 ,数据 的 交付 。 

第 5 章 详细 讲解 IBM InfoSphere 软件 。 

第 6 章 详细 讲解 大 数据 环境 下 的 安全 与 治理 ,包括 大 数据 环境 下 的 信息 安全 .大 数据 面 
临 的 安全 问题 .大 数据 安全 的 应 对 策略 、 大 数据 的 治理 、 大 数据 加 密 技术 。 

第 7 章 通 过 实例 详细 讲解 Hadoop 技术 。 

本 书 不 足 之 处 恳请 读者 指正 。 
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大 数据 概论 


1.1 什么 是 大 数据 


大 数据 (Big data) ,或 称 巨 量 数据 海量 数据 , 指 的 是 所 涉及 的 数据 量 的 规模 巨大 到 无 法 
通过 人 工 , 在 合理 时 间 内 达到 截取 ,管理 .处理 ,并 整理 成 为 人 类 所 能 解读 的 信息 。 


1.2 大 数据 的 特征 


目前 较为 普遍 的 大 数据 定义 为 “大 数据 主要 指 无 法 使 用 传统 流程 或 工具 处 理 和 分 析 的 
数据 *”。IBM 所 称 的 大 数据 通常 用 3 个 特征 描述 : 数量 (Volume) , Fp% (Variety) 和 速度 
(Velocity), 2012 年 ,英特尔 大 数据 论坛 上 ,IDC 定义 了 大 数据 的 四 大 特征 : 海量 的 数据 规 
模 ; 快速 的 数据 流转 和 动态 的 数据 体系 ; 多 样 的 数据 类 型 ; 巨大 的 数据 价值 。 综 合 上 述 定 
义 , 可 以 用 大 量 (Volume) ,多 样 性 (Variety) 、 速 度 快 (Velocity) 以 及 价值 高 和 密度 低 (High 
Value and Low Density) 四 大 特征 来 描述 大 数据 。 

(OD 大 量化 (Volume)。 数 据 量 级 已 从 GB 至 TB、PB 乃至 ZB 上升 ,可 称 海量 、 巨 量 其 
至 超 量 , 且 仍 在 持续 爆炸 式 增长 。 据 WinterCorp 调查 显示 ,最 大 数据 仓库 中 的 数据 量 , 每 两 
年 增加 3 倍 左右 ,其 增长 速度 远 超 摩尔 定律 增长 速度 。 谷 歌 公 司 每 天 要 处 理 超过 24PB 的 
数据 ,Facebook 每 天 更 新 的 照片 量 超过 1000 万 张 ,Twitter 每 天 都 会 发 布 超过 4 亿 条 微 博 。 
截止 到 2012 4E 12 月 底 ,中 国 网 页 数量 为 1227 亿 个 左右 , 比 2011 年 同期 增长 41.7% 左 右 。 
大 数据 环境 下 ,网络 信息 的 规模 急剧 增长 ,PB 级 甚至 ZB 级 的 数据 需要 大 规模 并 行 计 算 网 
络 的 支持 ,巨大 的 存储 、 链 接 、 传 输 和 加 密 归 并 等 开销 使 常规 加 密 计 算 不 堪 重 负 。 

(2) 多 样 化 (Variety) 。 数 字 信息 由 原来 简单 的 数值 .字符 和 文本 向 网 页 图片 .视频 、 图 
像 和 位 置信 息 等 半 结 构 化 和 非 结 构 化 的 数据 类 型 发 展 , 并 且 信 息 大 多 分 布 在 不 同 的 地 理 位 
置 .不 同 的 存储 设备 以 及 不 同 的 数据 管理 平台 。 此 外 ,互联 网 环境 中 大 量 的 信息 缺乏 有 效 的 
组 织 ,信息 的 无 序 化 大 幅度 降低 了 查找 和 利用 信息 的 效率 ,阻碍 了 有 价值 信息 的 加 密 和 管理 
效率 。 具 体 体现 在 如 下 3 个 方面 : 
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。 数据 来 源 多 。 随 着 互联 网 和 物 联 网 技术 的 飞速 发 展 ,可 以 通过 微 博 、 社 交 网 站 ,电子 
商务 网 站 、 车 载 网 以 及 遍布 全 球 的 各 式 各 样 的 传感器 等 多 种 数据 来 源 获 取 数 据 。 
。 数据 类 型 繁多 。 传 统 数 据 大 多 以 表格 的 形式 保存 ,而 大 数据 中 70%~85% 的 数据 是 
图 片 音频、 视频 网络 日 志 、 链 接 信息 等 半 结 构 化 和 非 结 构 化 的 数据 。 
。 数据 之 间 关联 性 强 ,交互 频繁 。 如 大 型 的 电子 商务 网 站 和 社交 网 络 中 ,一 些 用 户 的 
点 击 行为 在 一 定 程度 上 反映 了 该 用 户 潜 在 的 兴趣 爱好 和 需求 ,链接 之 间 的 关联 性 
较 强 。 
(3) 快速 化 (Velocity)。 大 数据 的 时 效 性 要 求 对 数据 的 处 理 能 够 做 到 实时 、 快 速 , 要 达 
到 这 一 目标 ,要 求 使 用 的 硬件 平台 亦 能 够 同步 更 新 换代 ,并 将 分 布 式 计算 、 并 行 计算 软件 工 
程 、 人 工 智能 等 技术 应 用 到 其 中 。 
(4) 价值 高 和 密度 低 (High Value and Low Density)。 互 联网 充斥 着 大 量 重复 和 虚假 
信息 ,通常 有 价值 的 信息 较为 分 散 , 密 度 很 低 。 
正 是 大 数据 的 价值 具备 稀 朴 性 多 样 性 和 不 确定 性 的 特点 , 较 多 数据 采集 和 存储 系统 又 
要 求 能 够 快速 访问 大 数据 的 历史 版 本 数据 ,备份 数据 的 保存 期 限 更 长 ,备份 的 窗口 不 断 缩 
短 ,很 多 数据 需要 在 线 备 份 和 故障 实时 恢复 等 ,大 数据 的 安全 维护 对 存储 资源 .计算 资源 、 网 
络 资源 等 都 提出 了 极 高 的 性 能 需求 ,其 安全 存储 与 数据 保护 面临 着 前 所 未 有 的 压力 和 挑战 。 


1.3 大 数据 的 作用 与 具体 应 用 


1.3.1 大 数据 的 作用 


CD 对 大 数据 的 处 理 分 析 正 在 成 为 新 一 代 信 息 技术 融合 应 用 的 节点 。 移 动 互联 网 、 物 
联网 .社交 网 络 .数字 家 庭 , 电 子 商务 等 是 新 一 代 信 息 技术 的 应 用 形态 ,这些 应 用 不 断 产生 大 
数据 。 云 计算 为 这 些 海量 、 多 样 化 的 大 数据 提供 存储 和 运算 平台 。 通 过 对 不 同 来 源 数据 的 
管理 ,处 理 , 分 析 与 优化 ,将 结果 反馈 到 上 述 应 用 中 ,将 创造 出 巨大 的 经 济 和 社会 价值 。 大 数 
据 具 有 催生 社会 变革 的 能 量 。 但 释放 这 种 能 量 ,需要 严 并 的 数据 治理 、 富 有 洞 见 的 数据 分 析 
和 激发 管理 创新 的 环境 (Ramayya Krishnan, 卡 内 基 。 梅 隆 大 学 海 因 效 学 院 院 长 ) 。 

(2) 大 数据 是 信息 产业 持续 高 速 增长 的 新 引擎 。 面 向 大 数据 市 场 的 新 技术 、 新 产品 、 新 
服务 .新 业态 会 不 断 涌现 。 在 硬件 与 集成 设备 领域 ,大 数据 将 对 芯片 存储 产业 产生 重要 影 
响 , 还 将 催生 一 体 化 数据 存储 处 理 服 务 器 、 内 存 计算 等 市 场 。 在 软件 与 服务 领域 ,大 数据 将 
引发 数据 快速 处 理 分 析 、 数 据 挖掘 技术 和 软件 产品 的 发 展 。 

(3) 大 数据 利用 将 成 为 提高 核心 竞争 力 的 关键 因素 。 各 行 各 业 的 决策 正在 从 * 业 务 驱 
动 "转变 为 “数据 驱动 ”。 

对 大 数据 的 分 析 可 以 使 零售 商 实时 掌握 市 场 动态 并 迅速 做 出 应 对 ; 可 以 为 商家 制定 更 
加 精准 有 效 的 营销 策略 提供 决策 支持 ; 可 以 帮助 企业 为 消费 者 提供 更 加 及 时 和 个 性 化 的 服 
务 ; 在 医疗 领域 ,可 提高 诊断 准确 性 和 药物 有 效 性 ; 在 公共 事业 领域 ,大 数据 也 开始 发 挥 促 
进 经 济 发 展 、 维 护 社会 稳定 等 方面 的 重要 作用 。 

COD 大 数据 时 代 科学 研究 的 方法 手段 将 发 生 重大 改变 。 例 如 ,抽样 调查 是 社会 科学 的 
基本 研究 方法 。 在 大 数据 时 代 , 可 通过 实时 监测 .跟踪 研究 对 象 在 互联 网 上 产生 的 海量 行为 
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数据 ,进行 挖掘 分 析 ,揭示 出 规律 性 的 东西 ,提出 研究 结论 和 对 策 。 
1.3.2 大 数据 的 应 用 


大 数据 目前 在 很 多 的 行业 都 有 应 用 ,包括 了 大 科学 (Mega Science) , RFID, E W i4 W 
络 天 文学 ,大气 学 .基因 组 学 .生物 学 ,大 社会 数据 分 析 、 互 联网 文件 处 理 、 制 作 互联 网 搜索 
引擎 索引 ,通信 记录 明细 、 军 事 侦察 ,社交 网 络 、 通 勤 时 间 预 测 、 医 疗 记录 、 照 片 图 像 和 视频 封 
存 、 大 规模 的 电子 商务 等 。 下 面 将 给 出 几 个 具体 的 大 数据 应 用 案例 供 大 家 参考 。 

(1) 大 科学 

大 科学 领域 的 一 个 典型 代表 是 大 型 强 子 对 撞 机 (Large Hadron Collider) ,大 数据 在 大 
科学 中 有 着 广泛 的 应 用 。 图 1. 1 所 示 为 大 型 强 子 对 撞 机 的 一 部 分 。 大 型 强 子 对 撞 机 中 有 
1. 5 亿 个 感 测 器 ,每 秒 发 送 4000 万 次 的 数据 。 实验 中 每 秒 产生 将 近 6 亿 次 的 对 撞 , 在 过 滤 
KPR 99. 999% 的 撞击 数据 后 ,得 到 约 100 次 的 有 用 撞击 数据 。 将 撞击 结果 数据 过 滤 处 理 后 
仅 记录 了 0.001% 的 有 用 数据 ,四 个 对 撞 机 的 全 部 数据 量 复制 前 每 年 产生 25 拍 字 节 (PB)， 
复制 后 为 200 拍 字 节 。 

如 果 将 所 有 实验 中 的 数据 在 不 过 滤 的 情况 下 全 部 记录 ,数据 量 将 会 变 得 过 度 庞大 且 很 
难处 理 。 每 年 数据 量 在 复制 前 估计 将 会 达到 1. 5 亿 拍 字 节 ,等 于 每 天 有 近 500 艾 字 节 (EB) 
的 数据 量 。 这 个 数字 代表 每 天 实验 将 产生 相当 于 500 J⁄ (5 > 10% ) 字 节 的 数据 ,是 全 世界 所 
有 数据 源 总 和 的 200 倍 左右 ,在 如 此 庞大 的 数据 中 去 寻找 希 格 斯 玻 色 子 (Higgs boson) 存 在 
的 证 据 , 就 需要 借助 大 数据 的 应 用 了 。 


图 1.1 大 型 强 子 对 撞 机 的 一 部 分 


(2) 社会 学 

大 数据 产生 的 背景 离 不 开 微 博 、Facebook 等 社交 网 络 的 兴起 ,人 们 每 天 通过 这 种 自 媒 
体 传播 信息 或 者 沟通 交流 ,由 此 产生 的 信息 被 网 络 记录 下 来 ,社会 学 家 可 以 在 这 些 数据 的 基 
础 上 分 析 人 类 的 行为 模式 、 交 往 方式 等 。 美 国 的 涂 尔 干 计划 就 是 依据 个 人 在 社交 网 络 上 的 
数据 分 析 其 自杀 倾向 ,该 计划 从 美军 退役 士兵 中 拣选 受 试 者 , 透 过 Facebook 的 行动 应 用 收 
集资 料 ,并 将 用 户 的 活动 数据 传送 到 一 个 医疗 资料 库 。 收 集 完 成 的 数据 会 接受 人 工 智能 系 
统 分 析 ,接着 利用 预测 程序 来 即时 监视 受 测 者 是 否 出 现 一 般 认为 具有 伤害 性 的 行为 。 
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(3) 营销 与 销售 

企业 与 客户 之 间 的 关系 早 在 第 一 次 销售 之 前 就 已 建立 。 大 数据 营销 技术 可 以 帮助 企业 
在 客户 仍然 研究 自己 的 选择 时 与 其 客户 接触 ,并 证 明 能 够 提供 客户 需要 的 个 性 化 产品 和 服 
务 。 如 图 1.2 所 示 , 个 人 感觉 和 真实 数据 的 结论 往往 不 同 。 

如 果 要 赢得 客户 ,需要 单独 了 解 客户 。 需 要 充分 利用 企业 内 外 的 所 有 数据 ,对 客户 的 需 
求 和 行为 进行 智能 预测 ,提高 客户 保留 率 和 忠诚 度 。 通 过 更 好 地 了 解 客户 ,企业 可 以 提供 适 
当 的 服务 水 平 ,从 而 提高 客户 保留 率 ,将 客户 转变 为 支持 者 。 由 此 可 见 大 数据 可 以 帮助 企业 
在 营销 与 销售 中 取得 优秀 的 成 果 。 


O 的 CEO 认 为 交 
付 了 卓越 的 客 
O 户 休 验 


但 只 有 
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图 1.2 个 人 感觉 和 真实 数据 的 结论 往往 是 不 同 的 


1.4 大 数据 的 技术 与 大 数据 的 分 析 


1.4.1 概述 


在 不 同 的 行业 领域 当中 ,对 大 数据 的 具体 运用 和 研究 范围 是 不 同 的 ,普通 的 行业 用 户 ， 
例如 人 金融, 商业、 遥感 等 领域 的 用 户 仅 仅 需 要 在 应 用 层 对 大 数据 进行 应 用 。 而 计算 技术 的 研 
究 人 员 和 开发 人 员 要 对 大 数据 技术 在 算法 层 、 系 统 层 和 平台 层 的 技术 进行 研究 和 开发 。 

大 数据 不 单 是 单纯 的 事实 存在 的 很 大 数量 的 数据 。 在 大 数据 研究 中 ,一 个 很 重要 的 问 
题 是 如 何 对 这 些 海量 的 数据 进行 分 析 , 并 从 中 得 到 一 些 有 意义 、 有 价值 的 数据 。 大 数据 的 数 
据 体 量 巨 大 、 数 据 种 类 多 样 . 价 值 密度 低 和 要 求 处 理 速 度 快 的 四 个 特点 表现 了 大 数据 分 析 不 
断 增加 的 复杂 性 。 

本 节 将 对 大 数据 的 技术 和 大 数据 的 分 析 进 行 简要 的 介绍 。 


1.4.2 大 数据 的 技术 


不 同 的 用 户 对 大 数据 技术 的 运用 是 不 同 的 ,对 大 数据 的 研究 领域 也 不 尽 相同 。 本 节 将 
对 不 同 层次 的 大 数据 技术 进行 介绍 。 

大 数据 的 最 项 层 为 应 用 层 , 这 一 层 的 研究 层次 包含 大 数据 行业 应 用 /服务 层 与 应 用 开发 
层 。 在 这 个 层次 上 ,大 数据 需要 的 技术 有 行业 应 用 系统 和 服务 的 使 用 与 开发 ,还 有 领域 应 
用 、 服 务 需求 和 计算 模型 的 制定 技术 等 。 

第 二 层 为 算法 层 ,包括 应 用 算法 层 与 基础 算法 层 。 

在 应 用 算法 层 , 大 数据 主要 的 研究 内 容 为 社会 网 络 ,商业 智能 ,推荐 系统 ,自然 语言 处 理 
与 Web 数据 的 挖掘 与 搜索 等 。 在 每 个 研究 内 容 中 又 会 细 分 为 很 多 项 具体 技术 ,由 于 篇 幅 限 
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制 , 在 这 里 不 多 做 介绍 。 

在 基础 算法 层 ,对 于 大 数据 的 主要 研究 内 容 为 大 数据 并 行 化 机 器 学 习 和 挖掘 方法 。 具 
体 的 算法 包括 分 类 算法 (Classification)、 聚 类 (Clustering) 和 参数 估计 (Parameters 
Estimation) 等 。 

第 三 层 为 系统 层 , 该 层 包 括 了 并 行 编程 模型 与 计算 框架 层 和 大 数据 存储 管理 层 。 

在 并 行 编程 模型 与 计算 框架 层 ,研究 领域 包括 了 MapReduce 在 不 同 构 架 上 实现 的 技 
术 , 定 制式 并 行 计算 框架 与 CUDA、MPI 等 技术 。 

在 大 数据 存储 管理 层 , 大 数据 的 研究 领域 包括 大 数据 预 处 理 技术 ,记录 型 大 数据 索引 和 
查询 技术 ,SQL/NoSQL 查询 语言 接口 技术 ,分 布 式 数据 库 与 分 布 式 文件 系统 技术 等 。 

最 底层 为 平台 层 ,该 层 只 有 一 层 内 容 即 并 行 构架 和 资源 平台 层 。 该 层 的 技术 主要 有 共 
享 内 存 构架 技术 、 分 布 内 存 构架 技术 、 混 合式 构架 技术 与 大 数据 应 用 /服务 云 计算 支撑 平台 
技术 等 。 


1.4.3 大 数 据 的 分 析 


在 大 数据 的 研究 中 ,如 何 从 海量 的 数据 中 分 析 并 获取 到 有 价值 的 数据 是 一 个 非常 重要 
的 问题 。 大 数据 分 析 主 要 有 五 个 方面 ,本 节 将 介绍 一 些 大 数据 分 析 的 方法 。 

(1) 可 视 化 分 析 。 大 数据 分 析 的 使 用 者 有 大 数据 分 析 专 家 ,同时 还 有 普通 用 户 , 但 是 他 
们 二 者 对 于 大 数据 分 析 最 基本 的 要 求 就 是 可 视 化 分 析 。 因 为 可 视 化 分 析 能 够 直观 地 呈现 大 
数据 的 特点 ,同时 能 够 非常 容易 被 用 户 所 接受 ,就 如 同 看 图 说 话 一 样 简单 明了 。 

(2) 数据 挖掘 算法 。 大 数据 分 析 的 理论 核心 就 是 数据 挖掘 算 法 。 各 种 数据 挖掘 的 算法 
基于 不 同 的 数据 类 型 和 格式 才能 更 加 科学 地 呈现 出 数据 本 身 具 备 的 特点 ,也 正 是 因为 这 些 
被 全 世界 统计 学 家 所 公认 的 各 种 统计 方法 才能 深入 数据 内 部 ,挖掘 出 公认 的 价值 。 另 外 一 
个 方面 也 是 因为 有 这 些 数据 挖掘 的 算法 才能 更 快速 地 处 理 大 数据 ,如 果 一 个 算法 要 花 上 好 
几 年 才能 得 出 结论 , 那 大 数据 的 价值 也 就 无 从 说 起 了 。 

(3) 预测 性 分 析 。 大 数据 分 析 的 应 用 领域 之 一 就 是 预测 性 分 析 , 从 大 数据 中 挖掘 出 特 
点 ,通过 科学 建 模 之 后 便 可 以 通过 模型 带 入 新 的 数据 ,从 而 预测 未 来 的 数据 。 

CD 语义 引擎 。 非 结构 化 数据 的 多 元 化 给 数据 分 析 带 来 新 的 挑战 ,这 就 需要 一 套 工具 
能 够 系统 地 分 析 和 提炼 数据 。 语 义 引 擎 需要 有 足够 的 人 工 智能 系统 的 功能 以 便 从 数据 中 主 
动 地 提取 信息 。 

(5) 数据 质量 和 数据 管理 。 大 数据 分 析 离 不 开 数据 质量 和 数据 管理 ,高 质量 的 数据 和 
有 效 的 数据 管理 ,无 论 是 在 学 术 研究 还 是 在 商业 应 用 领域 ,都 能 够 保证 分 析 结 果 的 真实 和 有 
价值 。 

总 之 ,以 上 五 个 方面 是 大 数据 分 析 的 基础 ,如 果 想 对 大 数据 进行 更 加 深入 的 分 析 , 那 么 
需要 一 些 更 加 独特 和 专业 的 方法 对 数据 进行 分 析 。 


1.4.4 大 数据 现状 


据 一 则 大 数据 发 展 分 析 报 告 称 ,大 数据 的 快速 发 展 ,使 它 成 为 IT 领域 的 又 一 大 新 兴 产 
业 。 据 中 央 财 经 大 学 中 国 经 济 管理 研究 院 博 士 张 永 力 估算 ,国外 大 数据 行业 约 有 1000 亿美 
元 的 市 场 ,而 且 每 年 都 以 大 约 10% 的 速度 在 增长 , 增 速 是 软件 行业 的 两 倍 。 


e || 大 数据 基础 与 管理 。 


1. 政府 积极 介入 推动 

2009 年 ,联合 国 启 动 “全 球 脉动 计划 ”, 借 大 数据 推动 落后 地 区 发 展 。2012 年 1 月 ,世界 
经 济 论坛 年 会 把 “大 数据 、 大 影响 ”作为 重要 议题 。 美 国 从 开放 政府 数据 、 开 展 关 键 技术 研究 
和 推动 大 数据 应 用 三 方面 布局 大 数据 产业 。 美 国 在 开放 政府 上 非常 积极 ,通过 Data. gov 开 
Ak 37 万 个 数据 集 ,并 开放 网 站 的 API 和 源 代码 ,提供 数 千 个 数据 应 用 。 除 了 推动 本 国政 府 
数据 开放 外 ,美国 还 倡导 发 起 了 全 球 开放 政府 数据 运动 ,已 有 41 个 国家 响应 。 美 国政 府 还 
投资 两 亿美 元 促进 大 数据 核心 技术 的 研究 和 应 用 ,把 大 数据 与 集成 电路 、 互 联网 放 在 同等 重 
要 的 位 置 , 从 国家 层面 推进 。 

2. 资本 市 场 也 对 大 数据 钟 受 有 加 

2012 年 4 月 ,大 数据 分 析 公 司 Splunk 高 调 宣传 大 数据 ,引发 投资 者 关注 。12 月 初 ,为 
企业 市 场 提供 Hadoop 解决 方案 的 创业 公司 Cloudera 获得 6500 万 美元 融资 , 估 值 约 为 7 亿 
美元 。 近 期 ,高 盛 联 席 主 席 斯 科 特 。 斯坦 福 说 :“ 投 资 大 数据 及 其 运用 回报 率 最 高 "。 大 数 
据 领域 的 企业 并 购 热度 也 在 上 升 , 单 笔 平均 并 购 金额 方面 ,大 数据 超过 云 计算 位 居 IT 领域 
榜首 ,在 总 并 购 额 上 也 位 居 第 二 。 

3. 人 才 需 求 巨大 

据 盖 特 纳 咨询 公司 预测 ,大 数据 将 为 全 球 带 来 大 约 440 万 个 IT 新 岗位 和 上 千 万 个 非 
IT 岗位 。 麦 肯 锡 公司 预测 美国 到 2018 年 需要 深度 数据 分 析 人 才 44 万 一 49 万 人 ,缺口 
14 Jj —19 万 人 ; 需要 既 熟 悉 本 单位 需求 又 了 解 大 数据 技术 与 应 用 的 管理 者 约 150 万 ,这 方 
面 的 人 才 缺 口 更 大 。 中 国 是 人 才 大 国 , 但 能 理解 与 应 用 大 数据 的 创新 人 才 目 前 还 很 稀缺 。 

4. 国内 情况 

大 数据 的 火爆 ,也 带动 了 国内 学 术 界 、 产 业界 和 政府 对 大 数据 的 热情 。2011 年 以 来 ,中 
国 计 算 机 学 会 中国 通信 学 会 先后 成 立 了 大 数据 委员 会 ,研究 大 数据 中 的 科学 与 工程 问题 ， 
科技 部 的 《中国 云 科技 发 展 “ 十 二 五 ”专项 规划 》 和 工信部 的 《 物 联网 “十 二 五 ”发 展 规划 ) 等 都 
把 大 数据 技术 作为 一 项 重点 予以 支持 。 其 中 工信部 发 布 的 物 联网 “十 二 五 ”规划 上 ,把 信息 
处 理 技术 作为 4 项 关键 技术 创新 工程 之 一 被 提出 来 ,其 中 包括 了 海量 数据 存储 、 数 据 挖掘 、 
图 像 视频 智能 分 析 , 这 都 是 大 数据 的 重要 组 成 部 分 。 而 另外 3 项 关键 技术 创新 工程 ,包括 信 
息 感知 技术 .信息 传输 技术 、 信 息 安全 技术 ,也 都 与 “大 数据 ”密切 相关 。 

大 数据 的 热潮 触发 了 一 场 思想 启蒙 运动 ,使 得 “大 数据 是 资产 ,不 是 包 补 ”“ 要 拿 数 据说 
话 ” 等 观念 逐步 深入 人 心 ,改变 了 以 往 不 重视 数据 积累 ,不 相信 数据 分 析 等 认识 。 有 了 这 种 
思维 模式 的 改变 ,大 数据 的 应 用 就 有 了 和 希望。 


1.4.5 展望 大 数据 


1. 大 数据 推动 信息 产业 创新 

大 数据 是 指 一 般 的 软件 工具 难以 捕 提 、 管 理 和 分 析 的 大 容量 数据 ,一 般 以 * 太 字 节 ?为 单 
位 ,大 数据 之 “大 ”, 并 不 仅仅 在 于 “容量 之 大 ”, 更 大 的 意义 在 于 : 通过 对 海量 数据 的 交换 、 整 
合 和 分 析 , 发 现 新 的 知识 ,创造 新 的 价值 , 带 来 “大 知识 ”“ 大 科技 ”“ 大 利润 "和 “大 发 展 ”。 
信息 管理 专家 涂 子 沛 在 其 专著 中 如 是 定义 大 数据 。 
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根据 IDC( 国 际 数据 公司 ) 的 监测 统计 ,2011 年 全 球 数据 总 量 已 经 达到 约 1. 8ZB, 而 这 
个 数值 还 在 以 每 两 年 翻 一 番 的 速度 增长 ,预计 到 2020 年 全 球 将 总 共 拥 有 35ZB 的 数据 量 ， 
增长 近 20 信 。 

2. 大 数据 将 改变 经 济 社会 管理 面貌 

大 数据 作为 一 种 重要 的 战略 资产 ,已 经 不 同 程度 地 渗透 到 每 个 行业 领域 和 部 门 ,其 深度 
应 用 不 仅 有 助 于 企业 经 营 活动 ,还 有 利于 推动 国民 经 济 发 展 。 麦 肯 锡 研究 表明 ,在 医疗 、 零 
售 和 制造 业 , 大 数据 可 以 每 年 提高 劳动 生产 率 0. 5 一 1 个 百分点 。 

大 数据 技术 作为 一 种 重要 的 信息 技术 ,对 于 提高 安全 保障 能 力 、 应 急 能 力 ,优化 公共 事 
业 服 务 ,提高 社会 管理 水 平 , 作 用 正在 日 益 凸 显 。 大 数据 技术 还 可 增强 安全 保障 能 力 。 在 国 
防 , 反 多 、 安 全 等 领域 应 用 大 数据 技术 ,能 够 对 来 自 于 多 种 渠道 的 信息 快速 进行 自动 分 类 、 整 
理 、 分 析 和 反馈 ,有 效 解决 情报 ,监视 和 侦察 系统 不 足 等 问题 ,提高 国家 安全 保障 能 力 。 

3. 大 数据 存储 管理 挑战 及 管理 技术 

目前 电信 金融 ,零售 等 行业 希望 通过 大 数据 的 分 析 手 段 来 帮助 自己 做 出 理性 的 决策 。 
特别 是 电信 和 人 金融 行业 表现 得 尤为 突出 ,市 场 数据 没有 与 用 户 消 费 数据 打通 。 面 临 的 第 一 
个 问题 就 是 海量 数据 存储 的 问题 。 多 数 企 业 正 在 试图 建设 自己 的 数据 中 心 来 满足 大 规模 数 
据 量 的 产生 ,但 是 随 着 数据 的 进一步 增多 ,很 多 数据 的 查询 和 分 析 性 能 急剧 下 降 , 有 的 数据 
中 心 甚至 出 现 了 无 法 响应 的 状况 ,为 企业 的 业务 带 来 了 很 大 损失 。 

企业 的 CIO 们 有 着 这 样 的 疑虑 ,什么 样 的 数据 管理 策略 才能 够 对 数据 进行 有 效 的 保 
护 ,而 且 在 需要 时 能 让 数据 变 得 有 价值 。 只 有 数据 与 适合 的 存储 系统 相 匹配 ,制定 出 管理 数 
据 的 战略 ,才能 高 成 本 、 高 可 靠 、 高 效益 地 应 对 大 量 数据 。 对 于 企业 来 说 ,大 数据 首先 需要 解 
决 的 问题 就 是 成 本 和 时 间 效 应 问题 。 商 机 不 容错 过 ,存储 数据 管理 可 以 通过 自动 化 操作 实 
现 , 备 份 和 归档 软件 可 让 企业 的 关键 数据 分 存在 不 同 的 区 域 ,然后 按照 特定 的 业务 需求 ,对 
数据 进行 提取 操作 和 分 析 , 并 形成 企业 所 需要 的 目标 数据 。 大 数据 面临 的 存储 难题 迎 丸 
而 解 。 

大 数据 的 关注 度 在 不 断 升温 ,而 大 数据 管理 的 技术 也 层出不穷 。 在 众多 技术 中 ,有 6 种 
数据 管理 技术 普遍 被 关注 , 即 分 布 式 存 储 与 计算 、 内 存 数据 库 技术 、 列 式 数据 库 技术 、 云 数据 
PË NoSQL ,移动 数据 库 技术 。 其 中 分 布 式 存储 与 计算 受 关注 度 最 高 。 

分 布 式 存储 与 计算 架构 可 以 让 大 量 数据 以 一 种 可 靠 .高效 .可 伸缩 的 方式 进行 处 理 。 
为 以 并 行 的 方式 工作 ,所 以 数据 处 理 速度 相对 较 快 , 且 成 本 较 低 ,Hadoop 和 NoSQL 都 属于 
分 布 式 存储 技术 的 范畴 。 

内 存 数据 库 技术 可 以 作为 单独 的 数据 库 使 用 .还 能 为 应 用 程序 提供 即时 的 响应 和 高 知 
吐 量 ,SAP 的 HANA 是 该 技术 的 典型 代表 。 

列 式 数据 库 的 特点 是 可 以 更 好 地 应 对 海量 关系 数据 中 列 的 查询 ,占用 更 少 的 存储 空间 ， 
这 也 是 构建 数据 仓库 的 理想 架构 之 一 。 

云 数 据 库 可 以 不 受 任何 部 署 环 境 的 影响 ,随意 地 进行 拓展 ,进而 为 客户 提供 适宜 其 需求 
的 虚拟 容量 ,并 实现 自助 式 资源 调配 和 自助 式 使 用 计量 。 目 前 微软 公司 的 SQL Server 可 以 
提供 类 似 的 服务 。 

NoSQL 数据 库 适合 于 以 下 场景 , 即 庞 大 的 数据 量 、 极 端的 查询 量 和 模式 演化 。 企 业 可 
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以 通过 NoSQL 获得 高 可 扩展 性 、 高 可 用 性 、 低 成 本 、 可 预见 的 弹性 和 架构 灵活 性 的 优势 , 甲 
上 骨 文 在 2011 年 推出 Oracle NoSQL 数据 库 。 

移动 数据 库 技术 是 适应 移动 计算 的 产物 。 随 着 智能 移动 终端 的 普及 , 人们 对 移动 数据 
实时 处 理 和 管理 的 要 求 不 断 提高 ,移动 数据 库 具有 平台 的 移动 性 、 频 繁 断 接 性 、 网 络 条 件 的 
多 样 性 、 网 络 通信 的 非 对 称 性 、 系 统 的 高 伸缩 性 和 低 可 靠 性 以 及 电源 能 力 的 有 限 性 等 ,也 正 
是 因为 这 些 特 性 被 业界 所 重视 。 

4. 我 国 大 数据 发 展 策略 

中 科 院 计算 所 网 络 数据 科学 与 工程 研究 中 心 主任 程 学 旗 在 接受 采访 时 表示 :“ 数 据 的 
规模 如 此 之 大 , 现 有 的 IT 技术 根本 没有 办 法 分 析 处 理 , 价 值 难 以 得 到 有 效 利 用 。 对 这 些 数 
据 的 感知 、 分 析 , 同 时 加 以 商业 化 ,就 是 大 数据 技术 需要 完成 的 工作 。” 如 何 挖 掘 大 数据 的 价 
值 是 重 中 之 重 。 

我 国 应 将 大 数据 作为 新 一 轮 科 技 竞争 和 产业 竞争 的 战略 重点 和 制高点 ,充分 认识 “ 数 
据 、 技 术 、 应 用 ”三 位 一 体 有 机 统一 的 内 涵 ,掌握 未 来 大 数据 发 展 主动 权 。 


— 


Data Studio 


本 章 将 会 介绍 Data Studio 相关 操作 内 容 , 使 用 软件 环境 为 IBM DB2 10.5 版 本 。 
2.1 创建 数据 库 


2.1.1 命令 方式 创建 数据 库 
本 小 节 将 会 介绍 使 用 命令 方式 创建 数据 库 。 
CREATE DATABASE 用 于 创建 数据 库 。 基 本 语法 是 : 
CREATE DATABASE database name; 
当然 ,此 命令 还 包括 许多 参数 选项 ,这 里 不 进行 详细 说 明 。 
例如 : 


CREATE DATABASE MYDB AUTHMATIC STORAGE YES ON 'C:V' DBPATH ON 'C:V' 
USING CODESET GBK TERRITORY CN COLLATE USING SYSTEM PAGE SIZE 4096; 


此 命令 创建 了 一 个 名 为 MYDB 的 数据 库 。 
创建 一 个 名 为 dbsample 的 数据 库 , 如 图 2. 1 所 示 。 


2.1.2 通过 数据 库 向 导 来 创建 数据 库 


创建 数据 库 向 导 可 以 帮助 用 户 创建 新 的 数据 库 和 调整 现 有 的 数据 库 。 操 作 步 又 
如 下 。 

(1) 打开 IBM Data Studio 并 切换 到 [管理 资源 管理 器 视图 】, 如 图 2. 2. F8 2.3 所 示 。 

(2) 在 [管理 资源 管理 器 对话 框 中 右 击 选择 [DB2】I【 新 建 数 据 库 ] 命 令 , 如 图 2. 4 
所 示 。 

(3) 输入 相关 认证 信息 , 单 击 【 完 成 3 按钮 进入 数据 库 创建 向 导 , 如 图 2.5 所 示 。 

CD 在 [详细 信息 】 对 话 框 中 ,为 新 数据 库 指定 信息 ,如 图 2.6 所 示 。 在 【存储 器 对 话 框 
中 ,指定 存储 数据 的 位 置 ,如 图 2.7 所 示 。 
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选择 工作 空间 


DB200001 CREATE DATABASE 


图 2.1 命令 方式 创建 数据 库 


IBM Data Studio 梅 项 目 存储 在 一 个 称 为 工作 空间 的 文件 夫 中 . 
选择 要 用 于 此 会 话 的 工作 空间 文件 去 


工作 空间 (W) : |C\Users\jianwuUBM\rationalsdp\workspace 


口 将 此 值 用 作 缺 首 值 并 且 不 再 询问 (U) 


图 2.2 选择 工作 空间 


JHF RE 浏览 (N) 搜索 (A) 项 目 (P) 数据 (T) 运行 (R) | TIENW) | 帮助 (H) 


[= 
Q- 


新 建 窗口 (N) 

新 建 编 各 器 (E) 

打开 适 视 图 (O) 
mmm | 

EMERE)... 

HERESFAA.. 

复位 运 视图 (R)… 

STRO 

关闭 所 有 适 视 图 (U 

Sac) 


首先 项 (P) 


Alt+Shift+Q , O 


前 | 名， 


f m gs 


Alt+Shift+Q , S 
Alt+Shift+Q , X 


ES 3, 


Alt+Shift+Q , Q 


图 2.3 切换 至 [管理 资源 管理 器 】 
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XHA SRE 浏览 (N) 搜索 (A) 项 目 (P) SEM 运行 (R) SOW) 帮助 (H) 
in- eE 


图 2.5 数据 库 认证 信息 输入 
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指定 要 使 用 的 任何 其 他 设置 。 完 成 后 清单 主 "运行 "。 


S maee 


=== 
1. 详细 信息 


为 新 数据 库 指定 信息 


输入 数据 库 的 和 名称， 并 根据 富 己 的 雪 求 定制 数据 库 。 对 于 Windows : 如 果 
DB2_CREATE_DB_ON_PATH 未 设置 或 设置 为 NO ,那么 数据 库 位 置 只 蓄 


BEES. 

mamam: moe 

和 

[y E 
别名 一 -一 一 
Lj 

CIBSSRIEARR 


REDNO) : Bem ake) v 
BEI RSEN (1-256) : [ — 
EUayEOE-DOf (1-259 : 


2.6 为 新 数据 库 指定 信息 


< 


Pie*|iemmijiet 


图 2.7 指定 存储 数据 的 位 置 
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(5) 指定 语言 环境 (地 域 或 代码 集 ) 确 定数 据 库 所 使 用 的 字符 集 ,同时 也 可 以 确定 如 何 
比较 不 同 的 字符 串 。 这 里 用 默认 设置 ,如 图 2. 8 所 示 。 


> 


O mies 

"xwmem | 为 该 数据 库 指定 语言 环境 — 
kwa TERA ( 地 域 和 代码 入 ) 确定 起 的 数 后 库 所 使 用 的 字符 集 。 它 还 确定 如 何 比较 不 司 的 字符 这 
migmisarun 


国家 或 地 区 : pawa v] 
wa: [us| 

RER: urs v 

mm 

JNSHERICI FRERUSHURSERER : 

(ens RORPGASUDRRESHENUT 

OX 以 上 描 定 的 代码 集 

Oma 其 十 入 进 制 值 


Oldentity 16bit 针对 UTF-16 DESERTA : 8 位 规范 (CESU-8) 
(QUCAA400 NO Unicode Collation Algorigthm 4.0.0 , 已 启用 规范 化 
O ucA400 LTH UCA400_NO ， 但 使 用 针对 泰国 字符 的 皇家 泰国 滞 字 次 规则 
OUCAA00 LSK UCA400_NO ， 但 完全 支持 斯洛伐克 二 
mu DB2 V2 SB 
| 合 NLSChar 和 包 合 针对 符 定 代码 集 和 地 域 的 其 他 规则 的 系统 A 


^e 
» m 


图 2.8 为 该 数据 库 指定 语言 环境 
最 后 ,在 设置 无 误 后 , 单 击 [ 运 行 ] 按 钮 ,运行 创建 数据 库 命令 。 


2.2 创建 数据 库 对 象 


2.2.1 创建 模式 


CD 右 击 选 择 【 所 有 数据 库 ]| localhost | DB2 | MYDB | PERI E e BESX E M o sn 
图 2.9 所 示 。 

(2) 在 模式 的 [名 称 ] 一 栏 中 输入 模式 名 称 , 如 图 2. 10 所 示 。 

(3) 进入 【特权 】 选 项 卡 中 .对 特权 进行 设置 ,如 图 2.11 所 示 。 

(4) 进入 【权限 】 选 项 卡 中 ,对 权限 进行 设置 ,如 图 2. 12 所 示 。 

(5) 进入 [文档] 选项 卡 中 ,输入 文档 信息 ,如 图 2. 13 所 示 。 

(6) 完成 以 上 步骤 后 ,新 创建 的 模式 将 会 出 现在 模式 界面 中 ,如 图 2. 14 所 示 。 

CD 完成 后 选择 [查看 和 部 署 更 改 ] 命 令 , 如 图 2. 15 所 示 。 

(8) 单 击 【运行 ] 命 令 ,成 功 创建 模式 ,如 图 2. 16 所 示 。 
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XP) SRE MIN REA MEP MEN 运行 (R) HEM 
m= =p 
5 | 
ej am -2 Bb a 
SIE ^ 
a D FERES 
4 B localhost 
4 Œ pg2 
4 fj MYDB (D82 Linu, 
< TEA to 
C) 更 改 计划 
G Mar 
向 XML 模式 
os 
Co men 
G mz 
G wa 
C) 分 区 组 
C3 ae 


© 
CG wm 


自 序列 


b 连接 : localhost - 50(F 在 显示 12 个 项 ( 共 12 个 ) 


snmma 


图 2.9 创建 模式 


= zaza 


2.10 输入 模式 名 称 


U 


EJEIBIBJEIBEJ 
TE E 


图 2.11 特权 设置 
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文件 日 ”编辑 (E) WIN 搜索 (A) 项 目 (P) HEO ZFR) HEM) SOW #Bh(H) 
zz w|imv =E 


. | 88 < 模式 > MYSCHEMA 
e. EBEN 


图 2.12 权限 设置 


2.13 文档 设置 


XHA (E) MIN SSA MEP 数据 (] 运行 (R) 迁移 (M) SOW EHH) 
MEL =o 
日 me - £ B br |° > == m H v b+ $ 
e 工人 和 * Default Change Plan 2013-12-05 23-53-07 » [Àp 25 $à à Bl X 
4 S 所 有 数据 库 
vul Paso = AT Em 


4 €: pg2 
4 & upa (paz une]. || Ë seu SYSIBM 


BE SYSCAT SYSIBM 
ES sysFUN SYSIBM 


EE SYSIBM SYSIBM 
EE SYSIBMADM SYSIBM 
TS SYSIBMINTERNAL SYSIBM 
8 SYSIBMTS SYSIBM 
8 svsPROC SYSIBM 
ES svsPuBuc SYSIBM 
SYSSTAT SYSIBM 
ES svsroots SYSIBM 
3A MYSCHEMA SYSTEM 


» 连接 : localhost - 50000 - MYDB 正在 显示 13 个 项 ( 共 13 个 ) 


图 2.14 模式 界面 


文件 昌 SEO MIN 搜索 (A) REP) MED 运行 (R) 迁移 (M) SOW 帮助 (H) 

“| 图 *MYDB 25 mw 
> v v ËB. v @ v 8 v Ate [ue m v v + 

* Default Change Plan 2013-12-05 23-53-07 » [à 1 


名 称 所 有 者 
EE Nuuup SYSIBM 
88 sou SYSIBM 
B SYSCAT SYSIBM 
WB sysFUN SYSIBM 
B SYSIBM SYSIBM 
BF SYSIBMADM SYSIBM 
EË SYSIBMINTERNAL SYSIBM 


m|m"^"8 


2.15 部 署 模式 
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-- «ScriptOptions statementTerminator-*;* /> 
CREATE SCHEMA MYSCHEMA AUTHORIZATION SYSTEM; 


COMMENT ON SCHEMA "MYSCHEMA' IS 'this is my schema'; 


图 2. 16 查看 命令 和 选择 部 署 选项 


2.2.2 创建 表 空 间 


CD 右 击 选择 [所 有 数据 库 】〗localhost1DB2|MYDBI[ 表 空间 】I[ 创 建 常规 表 空间 ] 命 
令 , 如 图 2.17 所 示 。 


KHA WE ”浏览 (N) 搜索 (A) MEP) MEN 运行 (R) HEM SOW SHH) 


FDE moe N a) 

e wa - 2 B bs 2 "| > + $ + v B el + [sos zres mRl-b-é 

4 B localhost ^ 
4 €: De2 

4 É MYDB (DB2 Linux. UNIX 和 | 


名 称 LL 2 最 大 大 小 
£g) SYSCATSPACE IBMDEFAULT.. 
49 SYSTOOLSPA.. IBMDEFAULT.. 
4) USERSPACE1 — IBMDEFAULT... 
加 TEMPSPACE! — IBMDEFAULT... 


正在 旺 示 ATE EAS) 


suma 


图 2.17 创建 常规 表 空 间 


(2) 输入 表 空 间 的 名 称 ,并 设置 “管理 "和 “恢复 ”选项 ,如 图 2. 18 所 示 。 
(3) 对 表 空间 的 [特权 】 进 行 设置 ,如 图 2.19 所 示 。 

(4) 对 表 空 间 的 [ 表 】 进 行 设置 ,如 图 2. 20 所 示 。 

(5) 对 表 空 间 的 【容器 3 进行 设置 ,如 图 2. 21 所 示 。 


文件 (F) SAE ”浏览 (N) 搜索 (A) 项 目 (P) MEM 运行 (R) 迁移 (M) SOW 帮助 (H) 
E 二 口 || 目 *MvpB :: 


图 2.18 表 空间 [通用 设置 


XHA RE 浏览 (N) 搜索 (A) 项 目 (P) 数据 (T 运行 (R) EEM) SOW 帮助 (H) 
= B(E myos z: 


3380895 Ë 
NNNSNs 


2.19 表 空 间 的 [特权 】 设 置 
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XÐ SEO 浏览 IN) REWA AEO HED FRN HEM) SOW EMH 
= B(E "Mype 3: 


SYSIBM.SYSATTRIBUTES 
SYSIBM.SYSAUDITEXCEPTIONS 
SYSIBM.SYSAUDITPOLICIES 
SYSIBM.SYSAUDITUSE 
SYSIBM.SYSBUFFERPOOLNODES 
SYSIBM.SYSBUFFERPOOLS 
SYSIBM.SYSCHECKS 
SYSIBM.SYSCODEPROPERTIES 
Haee e 


图 2.20 表 空间 的 [ 表 】 设 置 


XHA WAE ”浏览 (N) 搜索 (A) 项 目 (P) 数据 (T) 运行 (R) 迁移 (M) SOW 帮助 (H) 
二 口 || 目 "Mype 2 


大 小 (页 面 ) 


2.21 表 空 间 的 [容器 ] 设 置 
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(6) 对 表 空间 的 【IO 设置 3 进行 设置 .如 图 2. 22 所 示 。 


SEO MaN SEA AEO SEO 运行 (R) HEM SOW 帮助 (H) 
= B(& myos 2 


图 2. 22 表 空 间 的 KI/O 设置 3 设置 
(7) 对 表 空 间 的 [存储 器 选项 进行 设置 ,如 图 2. 23 所 示 。 


XHA RE 浏览 (N) RA 项 目 (P) MEM 运行 (R) EEM) SOW 帮助 (H) 
| [ñ ss = p)/E myos % 


[BMDEFAULTBP — 


图 2. 23 表 空 间 的 【存储 器 选项 3 设置 
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(8) 对 表 空 间 的 【大 小 3 进行 设置 ,如 图 2. 24 所 示 。 


XHA SRE 浏览 (N) BRA 项 目 (P) SEM 运行 (R) SEM) SOW 帮助 (H) 
= B(E mvo x 


图 2.24 表 空间 的 [大 小 设置 
(9) 对 表 空 间 的 [分 区 】 进 行 设置 ,如 图 2. 25 所 示 。 


XHA WE 浏览 (N) 搜索 (A) 项 目 (P) 数据 (T 运行 (R) 迁移 (M) SOW 帮助 (H) 
PULL id — B[& myos 2 


2.25 表 空 间 的 【分 区 3 设置 


22 || 大 数据 基础 与 管理 : 


(0) 对 表 空 间 的 [文档 3 进行 填写 ,如 图 2. 26 Bron 。 


XHA SAE WAN FRA 项 目 (P) HEM 运行 (R) SEM) SOW 


| | 


二 口 ]| 轩 myos x 


图 2.26 ”填写 表 空 间 的 [文档 】 
(11) 对 表 空 间 进 行 部 署 ,如 图 2. 27 所 示 。 


& SYSCATSPACE  IBMDEFAULT.. 4096 


€ 


» 连接 : localhost- 50000- MYDB ”正在 显示 5 AR (355 7) 


DEEN C3 SQL 结果 | GJ 作业 管理 器 | 


m|gm"-85 


2 < 常规 表 空间 > MYTABLESPACE 
| 


通用 名 称 : MYTABLESPACE 


Em: 
管理 : 
w= 


2.27 部 署 表 空间 
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(12) 单 击 【 运 行 ] 按 钮 完成 表 空间 创建 ,如 图 2. 28 Bron 


查看 命令 和 选择 部 署 选 项 


坦 看 为 部 办 更 改 计划 而 生成 的 命令 - 

您 可 以 指定 是 否 针 对 已 全 守重 新闻 建 的 对 杀 自 动 部 美和 重新 装 入 数 所 ,并且 您 可 以 运 笃 一 给 要 包括 在 更 改 计 划 中 的 DB2 $S. 
连接 : localhost - DB2 Linux, UNIX 和 Windows 版 - MYDB 

(aem: | |=] mee. [m DD. 


— «ScriptOptions statementTerminator-"; /> 
CREATE REGULAR TABLESPACE MYTABLESPACE IN DATABASE PARTITION GROUP IBMDEFAULTGROUP PAGESIZE 4096 MANAGEI 


图 2. 28 完成 表 空间 创建 


2.2.3 创建 组 冲 池 


CD 右 击 选择 [所 有 数据 库 引 localhost|DB21MYDB 必 缓冲 池 ]3 民 创建 缓冲 池 ] 命 令 , 如 
图 2.29 所 示 。 


ZRD ar NOU REN SEP REN NOW EN) NONO Wios 
= G(E Mvoe 2 H VOM REVIEWsal | 2 口 
Dam -um [e"> | m. L: b 


s a E Bkh RIER 页面 大 小 。 大 小 


4 @ 所 有 数据 库 
IBMDEFAULT.. 0 0 4096 -2 
4 B localhost a 


a €: pg2 
4 (à MYDB (DB2 Linux, UNIX 和 


x EET VUE GPUENÜ > 


P 连接: localhost- 50000 - MYDB — 正在 显示 1 个 项 ( 共 1 个 ) 


图 2. 29 创建 缓冲 池 
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(2) 在 [通用 】 选 项 卡 中 ,对 缓冲 池 “ 名 称 ”等 进行 设置 ,如 图 2. 30 所 示 。 


XE) SEO WIN SEA MEO 数据 中 ”运行 (R) HEM) SOW EMH 
— m] mv = 
e | B < 缓冲 池 > MYBUFFERPOOL 

— [mm £w: MYBUFFERPOOL 


[IMMEDIATE v | 
BeA 

回 启用 

1000 


4096 


32 


0 


图 2.30 缓冲 池 的 【通用 设置 
(3) 对 缓冲 池 【 分 区 进行 设置 ,如 图 2.31 所 示 。 


s= | B < 缓冲 油 > MYBUFFERPOOL 


分 区 组 

IBMCATGROUP 
IBMDEFAULTGROUP 
IBMTEMPGROUP 


图 2.31 缓冲 池 的 【分 区 了 设置 


.  $8823& Data Studio || 25 
* 


(4) 单 击 【运行 ] 按 钮 ,完成 缓冲 池 创 建 ,如 图 2.32 所 示 。 


查看 命令 和 选择 部 署 选项 

查看 为 部 轩 更 改 计划 而 生成 的 命令 . 

您 可 以 指定 是 否 针对 已 舍 寺 和 重新 创建 的 对 象 所 动 部 装 和 重新 装 入 数据 , 并 且 您 可 以 选择 一 组 要 包括 在 更 改 计划 中 的 DB2 命令 
连接 : localhost - DB2 Linux、UNIX 和 Windows f& - MYDB 


ILL : = | PISS. |B DDL 


一 <ScriptOptions statementTerminator=";" /> 


CREATE BUFFERPOOL MYBUFFERPOOL IMMEDIATE ALL DBPARTITIONNUMS 1000 AUTOMATIC PAGESIZE 4096; 


< 


图 2. 32 完成 缓冲 池 创 建 


2.2.4 创建 表 


CD 右 击 选择 【所 有 数据 库 】| localhost | DB2 | MYDB | LRI E 6] & X áp ^. 
如 图 2. 33 所 示 。 


XHA MRE ”浏览 (N) 搜索 (A) MEP) MEM 运行 (R) 迁移 (M) SOW 帮助 (H) 
E] MYDB £? N Ë UOM_REVIEW.sqI | 
Om -e Eb |797 ] 
© IFR ex 
4 @ 所 有 数据 库 
4 B localhost 
4 Q: pg2 
4 £ MYDB (DB2 Linux, UNIX I 


= 


名 称 

SYSIEM SYSATTRIBUTES 
E SYSIBM SYSAUDITEXCEPTIONS 
Ed svsiBM SYSAUDITPOLICIES 
图 SYSIBM SYSAUDITUSE 
图 SYSIBM SYSBUFFERPOOLNOD... 
SYSBUFFERPOOLS 
SYSCHECKS 
SYSCODEPROPERTIES 
SYSCOLAUTH 
SYSCOLCHECKS 
SYSCOLDEPENDENCI... 
SYSCOLDIST 
SYSCOLGROUPDIST ` 


> 


» 连接 : localhost - 50000 - MYDEIE£EEEr: 147 个 项 ( 共 147 个 ) 


图 2.33 创建 表 


(2) 在 【选择 模式 对 话 框 中 选择 MYSCHEMA 模式 , 单 击 【 确 定 ] 按 钮 ,如 图 2. 34 
所 示 。 


26 || 大 数据 基础 与 管理 A 


[E mrscrema] 
BF NULUD 

RE sou 

EB SYSCAT 

EB SYSFUN 

gË SYSIBM 

EE SYSIBMADM 
BË SYSIBMINTERNAL 
RE SYSIBMTS 
88 svsPROC 
BE SYSPUBLIC 
RE syssTAT 

88 sysToots 


图 2.34 选择 模式 
(3) 进行 表 的 【通用 3 设置 ,设置 “名 称 ” 等 信息 ,如 图 2. 35 所 示 。 


ZUHA RE 浏览 (N) 搜索 (A) MEP) 数据 (T) 运行 (R) HEM) SOW 帮助 (H) 


2.35 表 的 【通用 设置 


COD 进行 表 的 【 列 了 设置 ,如 图 2. 36 所 示 。 

(5) 进行 表 的 【特权 3 设置 .如 图 2. 37 所 示 。 

(6) 进行 表 的 [分 布 键 ] 设 置 ,如 图 2. 38 所 示 。 
CD 进行 表 的 [数据 分 区 】 设 置 ,如 图 2. 39 所 示 。 
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图 2.36 表 的 【 列 了 设置 


XHA WC) MEN) RRA 项 目 (P) SEM 运行 (R) HEM) WOW) EDH 


g 
3 


EJE EBE EJE. 
EJE EJEJEJEJ 


图 2.37 表 的 【特权 了 设置 


图 2.38 表 的 【分 布 键 3 设置 


XHA SRE 浏览 (N) SRA 项 目 (P) MEM 运行 (R) 迁移 (M) SOW #Bh(H) 


s= | 国 < 表 > MYTABLE 
分 区 表达 式 


列 


图 2.39 表 的 [数据 分 区 ] 设 置 
(8) 进行 【选择 列 ] 操 作 , 选 择 列 后 单 击 【 确 定 ] 按 钮 ,如 图 2. 40 所 示 。 


和 运 择 要 添加 的 列 。 
口 Bh - {CHAR(S)} 


图 2.40 选择 列 


(9) 进行 表 的 【 表 空 间 】 设 置 ,如 图 2. 41 所 示 。 
AO 进行 表 的 [MDC】 设 置 ,如 图 2. 42 所 示 。 
(OD 进行 表 的 【关系 3 设置 ,如 图 2. 43 所 示 。 
(12) 对 表 的 【文档 进行 填写 ,如 图 2. 44 所 示 。 
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XHA SRE 浏览 (N) 搜索 (A) 项 目 (P) MEM ZFR) 迁移 (M) SOW 帮助 (H) 


MYTABLESPACE 
MYTABLESPACE 


图 2.41 表 的 [ 表 空 间 ] 设 置 


LAÐ SEO MAN 搜索 (A) MEO KED 运行 (R) HEM SOW EMH 


TE asp 


图 2.42 表 的 KMDC] 设 置 


文件 (月 SRE WAN 搜索 (A) MAP MEM ZFR) 迁移 (M) SOW 帮助 (H) 


图 2.43 表 的 [关系 设置 


XHA WAE 浏览 (N) 搜索 (A) 项 目 (P) 数据 (T) 运行 (R) EEM) SOW 帮助 (H) 


| 


2.44 Xl PICS 
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(O3) 对 表 进 行 部 署 ,如 图 2.45 所 示 。 


文件 (站 SRE MWAN 搜索 (A) MAP KEM 运行 (R) SEM SOW EAH 
>| ILLE d 


^ B](& mvo x ELI 
E B we + e B by | @ + > + ] 时 证 -部 -从 
S Iff 入 * Default Change Plan 2013-12-06 00-24-01 » [Ë 125, à [Q| E) € 
D 所 有 数据 库 == SESSE 
B localhost 
posa SYSXDBMAPGRAPHS 
É MypB (DB2 Linux. UNIX fl 


SYSXDBMAPSHREDT... 
IEEE 核心 ONE SERAS, 


SYSXMI STRINGS 


E UOM REVIEW.sa! | 


图 2. 45 ”对 表 进 行 部 署 
AD 单 击 【 运 行 ] 按 钮 ,完成 表 的 创建 ,如 图 2. 46 所 示 。 


查看 命令 和 选择 部 署 选 项 

查看 为 部 雪 更 改 计划 而 生成 的 命令 

起 可 以 描 定 星 否 灶 对 已 全 友和 重新 创建 的 对 象 委 动 部 奖 和 重新 装 入 数据 ,并 且 息 可 以 渤 皖 一 组 要 但 括 在 更 改 计划 中 的 D82 命令 
ifii: localhost - DB2 Linux, UNIX 和 Windows f - MYDB 

回 保存 数据 : | 


|= [me ] uir DDL| musmm.. 
— «ScriptOptions statementTerminatorz";" /> 


CREATE TABLE MYSCHEMA.MYTABLE ( " 列 1” CHAR(5) ) IN MYTABLESPACE INDEX IN MYTABLESPACE LONG IN MYTABLESPACE; 
< 


图 2.46 完成 表 的 部 署 
2.2.5 创建 索引 


(1) di dii FEES XR PE] | localhost | DB2 | MYDB1[ 索 引 】I【 创 建 索引 ] 命 令 , 如 
图 2. 47 所 示 。 


(2) 进行 [选择 表 ] 操 作 , 如 图 2. 48 Bro. 
(3) 对 索引 进行 [通用 设置 ,如 图 2. 49 所 示 。 


XP) RRE MIN REA 项 目 (P) BUR) 运行 (R) 迁移 (M) SOW FAH 

E "Mype 4 N | UOM_REVIEWsqI | =o 
"e-2e- Bui- 
` * Default Change Plan 2013-12-06 00-30-58 » RA QQ E X | 


名称 要 

INDATTRIBUTES01 SYSIBM.SYSA- 
INDATTRIBUTES02 SYSIBM.SYSA.... 
INDATTRIBUTESO3 SYSIBM.SYSA.... 
INDAUDITEXCEPTIO.. — SYSIBM.SYSA... 
INDAUDITEXCEPTIO.. — SYSIBM.SYSA... 
INDAUDITPOLICIESO! — SYSIBM.SYSA... 
INDAUDITPOLICIESO2 — SYSIBM.SYSA... 
INDAUDITUSEO1 SYSIBM.SYSA.... 
INDAUDITUSEO2 SYSIBM.SYSA.... 
INDBUFFERPOOLNO.. —SYSIBM.SYSB... 
INDBUFFERPOOLSOT SYSIBM.SYSB.... 
INDBUFFERPOOLSO2 SYSIBM.SYSB.... 
INDCHECKSO1 SYSIBM.SYSC.... 


INDCODEPROPERTIE.. SYSIBM.SYSC.. 


INDICI AL Tun eversa ever Y 


Eb Eb Eb Eb Eb Eh Eb Ep Eb Eb EF 


b 连接 : localhost - 50000 - MY 正在 显示 377 个 项 ( 共 377 个 ) 
iemmag 


2.47 创建 索引 


4 RẸ MYSCHEMA 

Fi MYTABLE 

» BF NULLID 

» 88 SQU 

b BẸ SYSCAT 

» R8 SYSFUN 

b B SYSIBM 

» BẸ SYSIBMADM 

b @8 SYSIBMINTERNAL 


b BẸ SYSIBMTS 
» BF SYSPROC 
b BẸ SYSPUBLIC 
» RE SYSSTAT 
b BF svsTOOLS 


2.48 选择 表 
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文件 (月 SRE 浏览 (N) 搜索 (A) JEEP) 数据 (T) 运行 (R) EEM) SOW) 帮助 (H) 


图 2.49 索引 [通用 ] 设 置 
OD 对 索引 进行 [ 列 ] 设 置 ,如 图 2.50 所 示 。 


XHA SRE 浏览 (N) 搜索 (A) MEP) 数据 (1) 运行 (R) EEM) SOW) 帮助 (H) 


INCLUDE 列 : 


图 2.50 RIANNEE 
C) 进行 【选择 列 ] 操 作 , 单 击 【 确 定 ] 按 钮 ,如 图 2.51 所 示 。 
(6) 进行 索引 [性 能 了 设置 ,如 图 2. 52 所 示 。 
(7) 进行 索引 [特权 设置 ,如 图 2. 53 所 示 。 
(8) 进行 索引 [分 区 3 设置 ,如 图 2.54 所 示 。 
(9) 进行 索引 【 表 空 间 】 设 置 ,如 图 2. 55 所 示 。 
AO 进行 索引 【文档 填写 ,如 图 2. 56 所 示 。 
AD 进行 索引 部 署 , 如 图 2.57 所 示 。 
(12) 单 击 [运行 按钮 完成 索引 的 创建 ,如 图 2. 58 所 示 。 
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图 2.51 选择 列 


口 于 [页面 上 保留 的 已 用 空间 的 量 任 百分比 : 

口 = 航 索 引 页 而 上 保 塘 的 可 用 宇 间 的 百分比 : 

可 引 页 加 上 保 置 的 可 用 空间 的 百分比 : 

要 引 分 制 行为 : 对 称 

[v 在 创建 来 引 其 同 收 集 扩展 村 引 统 计 信息 
回 策 译 扩展 案 引 统计 信息 时 使 用 采样 


图 2.52 索引 [性 能 了 设置 


XHA WE SIN) 搜索 (A) MEP MEM 运行 (R) EEM) SOW EHH 


3388858 


图 2.53 索引 [特权 了 设置 
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XHA SRE 浏览 (N) 搜索 (A) MAP BEM 运行 (R) 迁移 (M) SOW 帮助 (H) 


图 2.54 索引 [分 区 3 设置 


2.55 索引 [ 表 空 间 ] 设 置 


图 2.56 索引 [文档 了 填写 


文件 (F) SRE 浏览 (N) RRA 项 目 (P) EUR) 


Á MYDB (DB2 Linux. UNIX #0 ^ 
< 正在 装 入 核心 提供 程序 


SYSIBM INDATTRIBUTES03 

SYSIBM INDAUDITEXCEPTIO-- 
SYSIBM INDAUDITEXCEPTIO... 
SYSIBM INDAUDITPOLICIES01 
SYSIBM INDAUDITPOLICIES02 


图 2.57 部 署 索引 


$R: localhost - DB2 Linux. UNIX t Windows 8 - MYDB. 
emm. | 


— «ScriptOptions statementTerminator-^ /> S 
| CREATE INDEX MYSCHEMA MYTABLE IOX ON MYSCHEMA MYTABLE ( “Bit” ) ALLOW REVERSE SCANS PAGE SPLIT SYMMETRIC COLLECT SAMPLED DETAILED STATISTICS; [Ü 
ALTER TABLE MYSCHEMA MYTABLE ALTER COLUMN "511" SET NOT NULL: 


CALL SYSPROCADMIN. CMD( REORG TABLE MYSCHEMA MYTABLE ); 
CALL SYSPROCADMIN. CMD( 'RUNSTATS ON TABLE MYSCHEMA MYTABLE' ); 
CALL SYSPROCADMIN, CMD( 'RUNSTATS ON TABLE MYSCHEMA MYTABLE FOR INDEX MYSCHEMA MYTABLE. JDX ); 


图 2.58 完成 索引 的 创建 
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2.2.6 创建 视图 


CD 右 击 选择 【所 有 数据 库 ]| localhost | DB2|MYDB1[ 视 图 】I【 创 建 视图 命令, 如 
图 2.59 所 示 。 


XHA SEAE MUN BRA 项 目 (P) BEC) 运行 (R) SEM) SOW ENH) 
El MYDB z N kë UOM REVIEW.sql 


B se - 2 8 is 3 7 
@ Ik 
4 @ 所 有 数据 库 
4 B localhost 


E 


名 称 
ATTRIBUTES 
Pasa AUDITPOLICIES 
4 & MYD8 (DB2 Linux. UNIX #0 DAUDITUSE 
x Kaw, 核心 提供 程序 BUFFERPOOLDBPART... 
C; BASH BUFFERPOOLEXCEPTL. 
G MQT BUFFERPOOLNODES 
G XML 模式 BUFFERPOOLS 
CASTFUNCTIONS 
CHECKS. 
COLAUTH 
COLCHECKS 
COLDIST 
COLGROUPCOLS 
COLGROUPDIST 
COLGROUPDISTCOU... 
COLGROUPS 
COUDENTATTRIBUTES. 
COLLATIONS. 


TERRENT 


» iS: localhost - 50000 - MYIFG 383 个 项 ( 共 3831) 
smmcg 


图 2.59 创建 视图 


图 2. 60 选择 模式 
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(3) 进行 视图 【通用 了 设置 ,如 图 2. 61 所 示 。 


XHA SRE 浏览 IN) RRA 项 目 (P) GER) 运行 (R) 迁移 (M) SAW 帮助 (H) 


图 2.61 视图 [通用 3 设置 
(4) 进行 视图 [ 列 设 置 ,如 图 2.62 所 示 。 


文件 (有 ] WEE 浏览 (IN) 搜索 (A) MAP MEM 运行 (R) EEM) SOW SRH) 


| m 7 = B): 


图 2.62 视图 [ 列 ] 设 置 
(5) 进行 视图 [特权 】 设 置 ,如 图 2. 63 所 示 。 


文件 (月 SRE 浏览 (N) 搜索 (A) 项 目 (P) MEM 运行 (R) EEM SOW 帮助 (H) 


授权 标识 

NEN a 
SYSDEBUG 角色 
SYSTS ADM 角色 
SYSTS MGR 角色 


图 2.63 视图 [特权 了 设置 
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(6) 进行 视图 SQL 设置 ,如 图 2.64 所 示 。 


XHA SRE 浏览 IN) RRA 项 目 (P) MEM 运行 (R) SEM) SOW 帮助 (H) 


村 | 加 = B) 


2.64 ”视图 [SQL] 设 置 


C 填写 视图 [文档 】 ,如 图 2. 65 所 示 。 


XP) WEE 浏览 (IN) 搜索 (A) 项 目 (P) MEM 运行 (R) EEM) SOW 帮助 (H) 


| m 7 = B) 


图 2.65 ”填写 视图 通用 [文档 】 
(8) 进行 视图 部 署 操作 ,如 图 2. 66 所 示 。 


XE) SEAE WAN) REA MEP HEM 运行 (R) 迁移 (M) SOW ENH) 


| =i 
< m se - £ Ë in a 7 
一 | SIF - 
S FRE 四 名 称 
B localhost T JE 
e us f . ATTRIBUTES 
&3 MYDB (DB2 Linux, UNIX s Ms Em 

€ Bo AUDITUSE 

O Eia S 
e =H > || > 3: localhost - 50000 - MYDUEEESE 384 个 项 ( 共 384 个 ) 


iann 


2.66 部 署 视 图 
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2.2.7 创建 别名 


右 击 选择 【所 有 数据 库 】| localhost | DB2 | MYDB |【 别 名 】I【 创 建 别 名 】 命 令 ， 


如 图 2. 67 所 示 。 


XHA SRE 浏览 (IN) 搜索 (A) 项 目 (P) MEM 运行 (R) SEM SOW 帮助 (H) 


E :MYDB :2 N Lf UOM REVIEW.sql 


eo 


] SO 


| mi-h-é|ü 


* Default Change Plan 2013-12-06 00-38-01 * Ra 25, A A E X 


m 
m= 


ut 

SYSPUBLIC 
SYSPUBLIC 
IBLIC 


IBLIC 


(Ë MYDB Change Plans ^ 
C3 数据 图 
Default Change Plan 2013-12-0 
fii) Default Change Plan 2013-12-0 
fii Default Change Plan 2013-12-0 、 


2E E: ËJ BJ E E E EE] 


IBLIC 

IBLIC 
SYSPUBLIC 
SYSPUBLIC 
SYSPUBUC 
SYSPUBLIC 
SYSPUBLIC 
SYSPUBLIC 
SYSPUBLIC 
SYSPUBLIC 
SYSPUBLIC 


名 称 


USER IND COLUMNS SYSIBMADM.... 
USER IND PARTITIONS  SYSIBMADM.... 


USER OBJECTS 


USER PART INDEXES SYSIBMADM.... 
USER PART KEY COL..  SYSIBMADM... 
USER PART TABLES SYSIBMADM.... 
USER PROCEDURES SYSIBMADM.... 


USER ROLE PRIVS 
USER SEQUENCES 
USER SOURCE 
USER SYNONYMS 
USER SYS. PRIVS 
USER TABLES. 


USER TABLESPACES SYSIBMADM..... 


USER TAB COLUMNS — SYSIBMADM... 


* ^ 


SYSIBMADM.... 


SYSIBMADM.... 
SYSIBMADM.... 
SYSIBMADM.... 
SYSIBMADM..... 
SYSIBMADM.... 
SYSIBMADM.... 


< 


š 
g 
1 
i 
Š 


R 
š 
s 
š 
2 


其 余 步 骤 尝 试 自行 操作 。 


2.2.8 创建 约束 


图 2.67 创建 别名 


iemmg 


diiit EUST A cs JE] | localhost | DB2 | MYDB [E23 £] | E 8) £e ne — J £ Y 2 , n 


图 2.68 所 示 。 
其 余 步骤 尝试 自行 操作 。 


2.2.9 创建 触发 器 


右 击 选择 [所 有 数据 库 】| localhost|DB2|1MYDB 人 触发 器 】 代 创建 触发 器 】 命 令 , 如 


图 2. 69 所 示 。 
其 余 步 骤 尝 试 自行 操作 。 
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WHA SRE WIN) RRA MAP ER) 运行 (R) 迁移 (M) SOW EBH) 
E *MYDB 2 N Ë UOM REVIEW.sql | = my 
@ + > r= ] i-e 
* Default Change Plan 2013-12-06 00-38-01 » a 2), A A E X 


模式 名 称 * zm 
E svsroots ATM UNIQ HMON ATM.. 唯一 
B svsroots HLOBJ UNIQ HMON COLL. 唯一 
B SYSTOOLS POLICY UNQ POLICY 唯一 


Default Change Plan 2013-12-0 

Í Default Change Plan 2013-12-0 

fii Default Change Plan 2013-12-0 、 > 
EE | 正在 显示 3 个 项 ( 共 3 个 ) 


图 2.68 创建 约束 


文件 (站 RAE MWIN RRA MAP MEM 运行 (R) EEM SOW 帮助 (H) 
El *MYDB 2 N G UOM_REVIEW.sqI | == 
@ + > mE | m l bv $ 
* Default Change Plan 2013-12-06 00-38-01 » Ao Z^ A 国 回 X 
E * Bas 
POLICY IR SYSTOOLS.P..  BEFOR| 
POLICY IV SYSTOOLS.P..  BEFOR| 


POLICY UV SYSTOOLS.P..  BEFOR| 
POLICY DR SYSTOOLS.P.. BEFOR| 


(Ë MYDB Change Plans 
G 数据 图 
$) Default Change Plan 2013-12-0 
fiij Default Change Plan 2013-12-0 


> 
正在 旺 示 A AR ( 共 4 个 ) 
isma 


2.69 创建 触发 器 
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2.3 备份 和 恢复 


2.3.1 DB2 数据 库 的 备份 


CD 右 击 选择 【所 有 数据 库 】localhost|DB2| MYDBI【 备 份 和 复原 】IK 备 份 … 了 命令 ,如 
图 2.70 所 示 。 


文件 (有 WEE 浏览 (N) 搜索 (A) MAP MEM 运行 (R) EEM) SOW 帮助 (H) 


EE 
e 

e-o-wanwwosssamR e Arbre 
* Default Change Plan 2013-12-06 00-38-01 » Ao Z5 A AHX — 
er mne 实例 到 名 


> 
正在 显示 1 个 项 ( 共 1 个 ) 
ienmag 


图 2.70 数据 库 备 份 


(2) 对 【备份 信息 3 进行 确认 ,如 图 2.71 所 示 。 

CD 为 备份 指定 类 型 选项 ,如 图 2.72 所 示 。 

(4) 指定 存储 备份 映像 的 位 置 ,如 图 2. 73 所 示 。 
(5) 选择 位 置 后 , 单 击 【确定 了 按钮 ,如 图 2.74 所 示 。 
(6) 选择 [备份 选项 】, 如 图 2.75 所 示 。 

CO 进行 [备份 性 能 了 设置 ,如 图 2. 76 所 示 。 

(8) 最 后 单 击 [运行 ] 按 钮 完成 备份 。 


$6235 Data Studio ll 43 


A SRE 浏览 (N) RRA MEP MEM 运行 (R) SOW SH) 


ECT 


数据 库 自 动 备份 : 已 禁用 


日 志 记录 类 型 : qu 
联机 备份 可 用 : 否 


图 2.71 备份 信息 


XHA WERE 浏览 (N) 搜索 (A) 项 目 (P) 数据 (T) 运行 (R) SOW RH) 


€9855eS? O =G 


[BERE 为 备份 指定 类 型 选项 
选择 备份 类 型 和 要 备份 的 相应 数据 库 对 象 . 

对 于 循环 日 志 记 录 数 据 库 ， 可 能 没有 对 象 可 供 寺 择 ,因为 整个 数据 库 备份 是 
唯一 的 选项 - 


图 2.72 备份 类 型 


XHA SRE WEIN 搜索 (A) 项 目 (P) SEM 运行 (R) SOW 帮助 (H) 


指定 要 使 用 的 任何 其 他 设置。 完成 后 请 单 去 运行 。 
Cs5see | O EG 


指定 存储 备份 映像 的 位 置 
指定 用 于 存储 备 份 映像 的 介质 类 型 及 关联 的 选项 。 铅 害 人 为 文件 系统 


Kasi 介质 类 型 | 文件 系统 v 
备份 位 置 
CN 


图 2.73 备份 映像 位 置 


< 


4i os cy] 
bJ 1 
b Ji tappstudy 
b ji 12aaa 
À 1574fe51322ef549b765b73f408b. 
| À adt-bundle-windows-x86. 64-20131030. 
b JÌ AppCan ARRAN: 2013/11/16 19:28 ] 
b À AsusVibeData 
» Ü bootstrap 所 见 即 所 得 v 


Xem. [05 


新 建文 件 去 (M) 


2.74 选择 位 置 
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XHA SRE MIN LEA MEP) SEM ZTR) SOW) ZRH) 


B 


图 2.75 备份 选项 


XHA WAE 浏览 (IN) 搜索 (A) MEP) 数据 (T) 运行 (R) SOW) 帮助 (H) 


图 2.76 备份 性 能 
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2.3.2 DB2 数据 库 的 恢复 


CD 右 击 选择 【所 有 数据 库 】localhost|1DB2|MYDBI【 备 份 和 复原 】I【 复 原 ] 命 令 , 如 
图 2.77 所 示 。 


XHA WAE MUN REA AEP MEM 运行 (R) SOW SR) 
— D] geo moe S: 


图 2.77 数据 库 复原 
(2) 选择 【复原 类 型 】, 如 图 2.78 所 示 。 


上 次 备份 时间 : 2013/12/06 00:55:15 
RSCR: CIRCULAR 


复原 目标 
国松 备份 复原 到 当前 数 突 库 
口 将 备份 复原 到 号 一 数 疾 库 


2.78 复原 类 型 
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(3) 选择 数据 库 对 象 和 备份 映像 ,如 图 2. 79 所 示 。 


[mmem) 选择 数据 库 对 象 和 备份 映像 


适 择 要 复原 的 多 个 数 振 库 对 象 。 手 动 指定 备份 矶 你 的 位 置 , 或 从 表 中 迁 择 备份 映像 。 该 表 中 包含 了 恢复 历史 记录 文 


放 择 要 复原 的 备份 员 像 。 仅 导 示 数据 库 级 备份 映像 、 要 音 看 特定 备份 器 像 中 的 过 空间 . SANE RTR P. 


— zA Ama OR 
文件 系统 c FULL OFFLINE 


图 2.79 复原 对 象 
(4) 对 【复原 容器 进行 设置 ,如 图 2. 80 所 示 。 


RHA WEE “浏览 (N) RRA MEP) MEM 运行 (R) SOW) 帮助 (H) 


Y maee [OF| 
js 设置 用 于 重 定向 复原 的 存储 容器 


在 备份 数据 库 之 后 ， 表 空间 可 能 被 更 改 。 例 如 ,可 能 添加 了 甘 容 总 或 容器 的 大 小 可 能 更 改 . 
间 的 容器 时 ， 可 能 希望 保 阜 这些 更 改 . 


2.80 复原 容器 
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(5) 对 【复原 选项 进行 设置 ,如 图 2.81 所 示 。 


复原 选项 
De 
用 于 在 复原 所 作 之 后 存储 活动 日 志文 件 的 路 径 ( 不 适用 于 快照 备份 映像 ) 


用 于 抽取 备份 映像 中 的 任何 日 志文 件 的 路 径 ( 不 适用 于 快照 备份 喘 像 ) 


O 区 许 其 他 应 用 性 序 连接 数据 库 
© 不 允许 应 用 程序 连接 数据 库 
O 先 除去 所 有 数据 库 连 接 , 然后 再 开始 复原 可 人 


图 2.81 备份 复原 选项 


(6) 单 击 【 运 行 ] 按 钮 完成 数据 库 复 原 。 
2.4 DB2 优化 器 


2.4.1 优化 器 


这 里 以 一 个 语句 来 开始 DB2 优化 器 的 学 习 , 这 个 语句 并 不 是 以 读者 熟悉 的 SQL 如 
"select cl,c2 from*…” 的 方式 给 出 ,而 是 以 读者 更 加 熟悉 的 陈述 方式 给 出 :“ 今 天 我 需要 去 商 
店 买 冷饮 、 给 汽车 加 油 还 有 寄 包 庄 ”。 假 如 有 一 个 机 器 人 (名 字 叫 DB2 优化 器 ) 负 责 决 定 如 
何 完成 这 些 任务 , 它 可 能 会 按照 输入 指令 的 顺序 来 完成 任务 ,这 样 做 当然 可 以 完成 任务 ,但 
很 可 能 不 是 完成 任务 的 最 好 方式 。 

如 果 先 买 冷饮 ,冷饮 会 不 会 在 完成 其 他 任务 的 过 程 中 化 掉 ? 如 果 在 去 加 油 站 的 路 上 油 
就 用 光 了 怎么 办 ? 到达 邮局 的 时 候 邮 局 会 不 会 下 班 ? 

是 的 ,机 器 人 DB2 需要 做 的 是 提供 完成 这 些 任 务 的 最 佳 方 案 , 然 而 至 少 目 前 它 无 法 很 
好 地 完成 这 件 事情 ,为 什么 ?因为 信息 不 足 ! 需要 提供 足够 的 信息 ,比如 商店 、 邮 局 、 加 油 站 
的 位 置 ; 商店 、 加 油 站 、 邮 局 的 营业 时 间 ; 冷饮 可 以 保留 多 久 不 会 化 掉 , 现 在 车 里 有 多 少 油 ? 
提供 的 信息 越 完 善 , 越 准确 , 越 有 可 能 得 到 最 佳 方 案 ; 否则 ,no 信息 ,no 优化 ! 那么 需要 提 
供 什么 信息 呢 ? 183€ DB2 优化 器 制订 最 优 方案 ,需要 提供 如 下 信息 : 

° 准确 实时 的 统计 信息 ; 
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合理 配置 的 数据 库 配置 参数 ; 
正确 的 优化 级 别 ; 
设计 创建 合理 的 索引 ; 
磁盘 L/O 的 合理 设计 (对 应 表 空 间 的 transrate 和 overhead 参数 ); 
高 效率 运转 的 SQL 语句 。 
为 了 在 数据 库 中 执行 查询 或 DML 语句 (INSERT、UPDATE DELETE) ,DB2 必须 创 
建 一 个 访问 计划 (Access Plan) 。 访 问 计划 定 义 按 什么 顺序 访问 表 , 使 用 哪些 索引 ,以 及 用 
何 种 连接 (Join) 方 法 来 关联 数据 。 好 的 访问 计划 对 于 SQL 语句 的 快速 执行 至 关 重要 。DB2 
优化 器 可 以 创建 访问 计划 。 这 是 一 种 基于 成 本 的 优化 器 ,这 意味 着 它 是 根据 表 和 索引 的 相 
关 统 计 信 息 来 做 出 决策 的 。 
本 节 主 要 讲解 如 下 内 容 : 
DB2 优化 器 介绍 ; 
SQL 语句 执行 过 程 ; 
优化 器 组 件 和 工作 原理 ; 
扫描 方式 ; 
连接 方法 ; 
优化 级 别 ; 
如 何 影 响 优化 器 来 提高 性 能 。 


2.4.2 DB2 优化 器 介绍 


优化 器 是 DB2 的 心脏 和 灵 现 (可 以 把 它 类 比 成 宝马 728 或 波音 747 的 发 动机 引擎 ) 。 
它 分 析 SQL 语句 并 确定 可 以 满足 每 条 语句 的 最 有 效 的 存 取 路 径 ( 请 参阅 图 2. 82 和 
图 2. 83)。DB2 通过 解析 SQL 语句 来 确定 必须 访问 哪些 表 和 列 ,从 而 完成 该 操作 。 然 后 
DB2 优化 器 查询 存储 在 DB2 系统 目录 中 的 系统 信息 和 统计 信息 ,以 确定 完成 满足 SQL 请 
求 所 必需 的 任务 的 最 佳 方法 。 优 化 器 在 功能 上 等 价 于 一 个 专家 系统 。 专 家 系统 是 一 个 标准 
规则 集合 , 当 与 情境 数据 组 合 时 , 它 返回 一 个 “专家 ?意见 。 例 如 ,医学 专家 系统 采用 一 个 规 
则 集合 来 确定 哪些 药 可 用 于 治疗 哪些 疾病 ,将 规则 集 与 描述 疾病 症状 的 数据 组 合 , 并 将 知识 
库 应 用 于 输入 症状 的 列表 。DB2 优化 器 会 根据 存储 在 DB2 系统 目录 中 的 情境 数据 和 SQL 
格式 的 查询 输入 来 生成 对 数据 检索 方法 的 专家 意见 。 

在 数据 库 中 优化 数据 访问 是 DB2 最 强大 的 功能 之 一 (在 所 有 数据 库 中 ,DB2 的 优化 器 
是 最 强大 的 )。 用 户 在 访问 DB2 数据 时 应 告诉 DB2 要 检索 什么 ,而 不 是 如 何 检索 。 不 管 数 
据 是 如 何 存储 和 操作 的 ,DB2 和 SQL 都 可 以 访问 该 数据 。 从 物理 存储 特征 中 分 离 出 的 访问 
标准 被 称 作 物理 数据 独立 性 。DB2 优化 器 是 完成 该 物理 数据 独立 性 的 组 件 。 

优化 器 根据 许多 信息 执行 复杂 的 计算 。 要 使 优化 器 的 工作 方式 直观 化 ,可 以 将 优化 器 
想象 成 一 个 执行 以 下 步骤 的 过 程 : 

CD 接收 并 验证 SQL 语句 的 语法 语义 ; 

(2) 分 析 环 境 并 优化 满足 SQL 语句 的 方法 ; 

(3) 创建 计算 机 可 读 指 令 来 执行 优化 的 SQL 语句 ; 

(4) 执行 指令 或 存储 它们 以 便 将 来 执行 。 
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这 个 过 程 的 第 2 步 是 最 有 趣 的 。 优 化 器 怎样 决定 如 何以 它 的 方式 执行 用 户 可 以 发 送 的 
Xm SQL 语句 ? 优化 器 有 许多 类 型 的 优化 SQL 的 策略 。 它 如 何 选择 在 优化 存 取 路 径 中 使 
用 这 些 策略 中 的 哪 一 个 ? IBM 并 没有 发 布 优化 器 如 何 确 定 最 佳 存 取 路 径 的 真正 和 深入 的 
详细 信息 ,但 优化 器 是 一 个 基于 成 本 的 优化 器 (CBO)。 这 意味 着 优化 器 将 始终 尝试 为 每 个 
查询 制订 减少 总 体 成 本 的 存 取 路 径 。 要 实现 这 个 目标 ,DB2 优化 器 会 应 用 查询 成 本 公式 ， 
该 公式 对 每 条 可 能 的 存 取 路 径 的 4 个 因素 进行 评估 和 权衡 : CPU 成 本 、I/O 成 本 、DB2 系统 
目录 中 的 统计 信息 和 实际 的 SQL 语句 。 


SQL 语句 DB2 DBMS 


UL 一 人 


E 统 
ai DB2 优化 器 
=-= BIND 过 程 
系统 编目 


图 2.82 运行 中 的 DB2 优化 器 


2.4.3 SQL 语句 执行 过 程 


SQL 编译 器 需要 执行 几 个 步骤 来 产生 可 以 执行 的 访问 方案 ,如 图 2. 83 所 示 。 注 意 , 某 
些 步骤 仅 针 对 联合 数据 库 中 的 查询 。 

一 条 SQL 语句 的 执行 流程 如 下 : 

COD 语法 分 析 

SQL 编译 器 分 析 查 询 以 验证 其 语法 。 如 果 检 测 到 任何 语法 错误 ,那么 查询 编译 器 停止 
处 理 ,并 将 适当 的 错误 返回 至 提交 该 查询 的 应 用 程序 。 当 解析 完成 时 ,创建 该 查询 的 内 部 表 
示 , 并 将 它 存储 在 查询 图 模型 中 。 

(2) 语义 检查 

编译 器 确保 在 语句 的 各 个 部 分 中 没有 不 一 致 。 作 为 语义 检查 的 一 个 简单 示例 ,编译 器 
验证 为 YEAR 标量 函数 指定 的 列 的 数据 类 型 是 日 期 时 间 数 据 类 型 。 

编译 器 也 将 行为 语义 添加 至 该 查询 图 模型 ,包括 参考 约束 、 表 检查 约束 、 触 发 器 和 视图 
的 作用 。 该 查询 图 模型 包含 查询 的 所 有 语义 ,包括 查询 块 . 子 查询 .相关 、 派 生 的 表 、 表 达 式 、 
数据 类 型 .数据 类 型 转换 .代码 页 转换 和 分 区 键 。 

(3) 查询 重 写 

编译 器 使 用 存储 在 查询 图 模型 中 的 全 局 语义 来 将 该 查询 变换 为 更 易于 优化 的 一 种 形 
式 ,并 将 结果 存储 在 查询 图 模型 中 。 

例如 ,编译 器 可 能 会 移动 谓词 ,改变 其 应 用 级 别 并 有 可 能 提高 查询 性 能 。 这 种 类 型 的 操 
作 移 动 称 为 "一般 谓词 下 推 ?。 在 一 个 分 区 数据 库 环 境 中 ,下 列 查询 操作 的 计算 更 为 集中 : 

* 聚集 (avg,sum,max,min,count 等 ); 


° 行 的 重新 分 发 ; 
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SQL 语 句 
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图 2.83 SQL 编译 器 执行 的 步骤 


。 相关 子 查询 , 它 是 包含 对 该 子 查询 之 外 表 列 的 引用 的 子 查询 对 于 分 区 数据 库 环 境 中 
的 某 些 查询 ,解除 相关 可 能 作为 查询 重 写 的 一 部 分 而 发 生 。 

(4) 下 推 分 析 

此 步骤 的 主要 任务 是 向 优化 器 建议 是 否 可 在 数据 源 处 对 一 个 操作 以 远程 方式 求 值 ( 即 
下 推 )。 这 种 类 型 的 下 推 活动 仅 适 用 于 数据 源 查询 , 它 是 对 一 般 谓 词 下 推 操作 的 扩展 。 

除非 执行 联合 数据 库 查 询 ,否则 绕 过 此 步骤 。 

(5) 优化 访问 方案 

通过 查询 统计 信息 作为 输入 ,编译 器 的 优化 器 部 分 生成 许多 备用 执行 方案 以 满足 查询 。 
要 估计 每 个 备用 方案 的 执行 成 本 ,优化 器 使 用 有 关 表 索引 、 列 和 函数 的 统计 信息 。 然 后 , 它 
选择 具有 最 小 估计 执行 成 本 的 方案 。 优 化 器 使 用 查询 图 模型 来 分 析 查 询 语义 ,并 获取 有 关 
各 种 因素 的 信息 ,包括 索引 、 基 本 表 、 派 生 的 表 、 子 查询 ,关联 和 递归 。 优 化 器 还 可 考虑 男 一 
类 下 推 操作 ,聚集 (avg,sum,max,min,count 等 ) 与 排序 ,这 种 操作 可 将 对 这 些 操 作 求 得 的 
值 下 推 到 “数据 管理 服务 ”组件 中 来 提高 性 能 。 在 确定 页 大 小 选择 时 ,优化 器 还 考虑 是 否 有 
不 同 大 小 的 缓冲 池 。 该 环境 是 否 包括 一 个 分 区 数据 库 ,以 及 是 否 能 够 为 在 对 称 多 处 理 器 
(CSMP) 环 境 中 实现 分 区 内 并 行 性 改善 选择 的 方案 , 均 属 考虑 范围 。 优 化 器 使 用 此 信息 来 帮 
助 选择 该 查询 的 最 佳 访问 方案 。 编 译 器 此 步骤 的 输出 是 访问 方案 。 此 访问 方案 提供 说 明 表 
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中 捕获 的 信息 。 可 以 用 说 明快 照 捕 获 用 于 生成 该 访问 方案 的 信息 。 

(6) 远程 SQL 生成 

优化 器 选择 的 最 终 方案 可 由 一 组 对 远程 数据 源 执行 操作 的 步骤 组 成 。 对 于 每 个 数据 源 
执行 的 那些 操作 ,远程 SQL 生成 步骤 将 根据 数据 源 SQL 语言 创建 一 个 高 效 的 SQL 语句 。 

(7) 生成 可 执行 代码 

在 最 后 一 个 步骤 中 ,编译 器 使 用 访问 方案 和 查询 图 模型 来 创建 查询 的 可 执行 访问 方案 
或 节 (section) 。 此 代码 生成 步骤 使 用 查询 图 模型 中 的 信息 ,以 避免 重复 执行 需要 对 一 个 查 
询 只 计算 一 次 的 表达 式 。 可 以 进行 此 优化 的 示例 包括 代码 页 转换 和 绑 定 ( 宿 主 ) 变 量 的 
使 用 。 

要 对 具有 绑 定 (宿主 ) 变 量 ,专用 寄存 器 或 参数 标记 的 静态 和 动态 SQL 语句 启用 查询 
(重新 ) 优 化 ,应 将 程序 包 与 REOPT 绑 定 选项 进行 绑 定 。 如 果 使 用 此 项 ,将 使 用 绑 定 (宿主 ) 
变量 .参数 标记 或 专用 寄存 器 的 值 ,而 不 是 由 编译 器 选择 的 默认 估计 值 ,来 优化 属于 该 程序 
包 并 且 包 含 这 些 变 量 的 SQL 语句 的 访问 路 径 。 当 值 可 用 时 ,执行 查询 时 就 会 进行 此 优化 。 

有 关 静 态 SQL 语句 访问 方案 的 信息 存储 在 系统 目录 表 (syscat. statements) 中 。 当 执 
行 该 程序 包 时 ,数据 库 管 理 器 将 使 用 存储 在 系统 目录 表 中 的 信息 来 确定 如 何 访 问 该 数据 ,并 
提供 该 查询 的 结果 。 此 信息 由 db2expln 工具 使 用 。 

注意 : 在 经 常 更 改 的 表 上 以 适当 的 时 间 间 隔 执行 RUNSTATS。 优 化 器 需要 有 关 表 及 
其 数据 的 最 新 统计 信息 以 创建 最 有 效 的 访问 方案 。 重 新 绑 定 应 用 程序 以 利用 更 新 的 统计 信 
息 。 如 果 未 执行 RUNSTATS 或 优化 器 怀疑 在 空 表 或 几乎 是 空 的 表 上 执行 了 
RUNSTATS ,那么 优化 器 可 能 使 用 默认 值 , 或 尝试 根据 在 磁盘 上 存储 该 表 所 用 的 文件 页 的 
数目 (FPAGES) ,来 得 出 特定 的 统计 信息 。 已 占用 块 的 总 数 存储 在 ACTIVE. BLOCKS 
Hv. 


2.4.4 优化 器 组 件 和 工作 原理 


理解 DB2 优化 器 的 工作 机 制 对 于 做 性 能 调 优 是 非常 重要 的 。DB2 优化 器 主要 由 三 种 
组 件 构成 。 
(1) Query Rewriter( 查 询 重 写 ) 
SQL 是 一 个 非常 灵活 的 查询 语言 ,通常 会 有 很 多 不 同 的 语句 达到 同一 个 目的 。 有 时 ， 
优化 器 通过 查询 重 写 (Query Rewriter) 会 将 一 种 形式 的 语句 转换 成 另外 一 种 形式 ,前 提 是 
第 二 种 形式 的 语句 执行 起 来 更 有 效 。 
(2) Estimator( 成 本 评估 器 ) 
成 本 评估 产生 三 种 度量 标准 : 
。 Selectivity: 表示 有 多 少 rows 可 以 通过 谓词 被 选择 出 来 ,大 小 介 于 0.0 一 1.0,0 表示 
没有 row 被 选择 出 来 。 如 果 没 有 statistics,Estimator 会 使 用 一 个 默认 的 selectivity 
值 , 这 个 值 根据 谓词 的 不 同 而 异 。 比 如 ' 王 ' 的 selectivity 小 于 ' 二 '。 如 果 有 统计 信息 
(Statistics) ,比如 对 于 last. name— 'Smith', Estimator 使 用 last. name 列 的 distinct 
值 的 倒数 ( 注 : 是 指 表 中 所 有 last_name 的 distinct 值 ) 作 为 selectivity。 

* Cardinality: 表示 一 个 row set 的 行 数 。 

* Cost: Cost 表现 了 Disk I/O,CPU usage 资源 单位 的 使 用 成 本 单位 (Timeron) 。 
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(3) Plan Generator iT Xi] Æ JI 88) 
它 的 作用 是 尝试 各 种 可 能 的 执行 计划 ,选择 cost 最 低 的 一 种 。 


2.4.5 扫描 方式 


查询 优化 器 在 编译 一 条 SQL 语句 时 会 估计 满足 查询 的 不 同方 法 的 执行 成 本 。 根 据 它 


的 估计 ,优化 器 选择 优化 访问 方案 。 访 问 方案 指定 解析 一 条 SQL 语句 所 需 的 操作 顺序 。 当 
绑 定 一 个 应 用 程序 时 ,会 创建 一 个 程序 包 。 此 程序 包 包含 该 应 用 程序 中 所 有 静态 SQL 语句 
的 访问 方案 。 动 态 SQL 语句 的 访问 方案 在 执行 应 用 程序 时 创建 。 


f. 


有 两 种 方法 来 访问 表 中 的 数据 : 

° 顺序 扫描 整个 表 ， 

。 通过 首先 访问 表 上 的 索引 来 定位 特定 表 行 。 

要 产生 查询 请 求 的 结果 ,根据 谓词 的 条 件 选择 行 ,通常 在 WHERE 子 句 中 说 明 这 些 条 
连接 访问 表 中 选择 的 行 来 产生 结果 集 , 并 可 以 通过 分 组 或 排序 输出 来 进一步 处 理 结 


果 集 。 
2.4.6 连接 方法 


连接 是 根据 信息 的 某 些 公共 域 从 两 个 或 多 个 表 组 合 信息 的 过 程 。 当 对 应 行 中 的 信息 符 


合 连接 条 件 时 ,一 个 表 中 的 行 就 会 与 男 一 个 表 中 的 行 配对 。 


在 连接 两 个 表 时 ,无 论 使 用 哪 种 连接 方法 ,总 有 一 个 表 被 选 为 外 表 (Outer table) ,而 另 


一 个 表 被 选 为 内 表 (Inner table)。 优 化 器 根据 所 选 连接 方法 的 成 本 和 类 型 决定 哪个 是 外 
表 、 哪 个 是 内 表 。 首 先 访问 外 表 , 并 且 只 扫 措 一次。 根据 连接 的 类 型 和 存在 的 索引 ,可 以 多 
次 扫描 内 表 。 还 有 一 点 也 很 重要 ,即使 用 户 试图 连接 两 个 以 上 的 表 , 优 化 器 也 将 每 次 只 连接 
两 个 表 , 并 在 必要 时 保存 中 间 结 果 。 


例如 ,考虑 下 面 的 表 2.1 的 Tablel 和 Table2: 


表 2.1 Tablel 和 Table2 X 


Tablel Table2 
PROJ PROJ. ID PROJ ID 名 称 
A 1 1 Sam 
B 2 3 Joe 
c 3 4 Mary 
D 4 1 Sue 
2 Mike 


要 将 标识 列 具 有 相同 值 的 Tablel 和 Table? 连接 ,使 用 下 列 SQL 语句 : 


SELECT PROJ, x. PROJ_ID, NAME 
FROM TABLE1 x, TABLE2 y 
WHERE x. PROJ ID- y.PROJ ID 


此 查询 得 到 下 列 一 组 结果 ,如 表 2.2 所 示 。 
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表 2.2 查询 结果 
PROJ PROJ_ID PROJ_ID 
A 1 Sam 
A 1 Sue 
B 2 Mike 
C 3 Joe 
D 4 Mary 


根据 连接 谓词 是 否 存在 ,以 及 所 涉及 的 由 表 和 索引 统计 信息 来 确定 的 各 种 成 本 ,优化 器 
选择 下 列 其 中 一 种 连接 方法 : 

。 嵌 套 循环 连接 ; 

。 合并 连接 ; 

。 哈 希 连接 。 

可 以 提供 显 式 连接 运算 符 ( 如 INNER 或 LEFT OUTER JOIN) 来 确定 如 何在 连接 中 
使 用 表 。 但 是 ,以 这 种 方式 改变 查询 之 前 ,应 允许 优化 器 确定 如 何 连接 表 。 然 后 分 析 查 询 性 
能 来 决定 是 否 要 添加 连接 运算 符 。 

当 查 询 需 要 连接 表 时 ,优化 器 可 以 选择 前 面 所 说 的 三 种 基本 连接 策略 的 其 中 一 种 。 

正如 大 家 所 知 , 初 看 起 来 , 某 些 方法 与 其 他 方法 相 比 是 更 好 的 选择 。 例 如 ,与 根据 外 表 
的 每 一 行 扫描 内 表 的 嵌 套 循环 连接 相 比 ,合并 连接 具有 只 对 表 扫 描 一 次 的 优势 。 于 是 ,合并 
连接 似乎 是 一 个 更 好 的 选择 。 但 是 ,如 果 存 在 索引 的 话 , 则 嵌 套 循环 连接 会 是 更 好 的 选择 。 
同样 地 ,与 合并 连接 相 比 , 喻 希 连 接 似 乎 是 更 好 的 选择 ,因为 它 不 需要 在 执行 前 对 输入 表 排 
Jy ,但 如 果 需 要 保持 外 表 中 行 的 次 序 , 则 合并 连接 或 嵌 套 循环 连接 可 能 是 更 好 的 选择 ,但 是 
哈 希 连接 不 能 保证 维持 次 序 , 因 为 它 可 能 溢出 到 磁盘 以 致 破坏 次 序 。 

那么 DB2 优化 器 如 何 针对 特定 连接 来 决定 使 用 哪 种 连接 方法 呢 ? 首先 , 它 必 须 考虑 查 
询 中 谓词 的 类 型 。 当 选择 了 可 能 的 连接 方法 时 ,DB2 优化 器 随后 根据 成 本 模型 和 选 定 的 优 
化 级 别 来 决定 使 用 哪 种 连接 方法 。 优 化 级 别 是 数据 库 配 置 文件 中 可 配置 的 参数 , 它 告 诉 优 
化 器 要 进行 多 大 程度 的 优化 。 这 个 值 越 高 ,优化 操作 就 越 多 。 优 化 级 别 可 能 的 值 为 : 0、1、 
2.3.5.7 和 9。 这 些 值 对 可 能 的 连接 方法 的 影响 如 下 : 

。 和 嵌 套 循环 连接 在 每 个 优化 级 别 都 可 行 ; 

。 合并 连接 在 优化 级 别 1 及 以 上 级 别 是 可 行 的 ; 

。 哈 希 连接 在 优化 级 别 5 及 以 上 级 别 是 可 行 的 。 

DB2 优化 器 会 根据 成 本 模型 来 决定 使 用 合适 的 连接 。 所 以 只 需要 提供 给 优化 器 成 本 
模型 必需 的 信息 : 准确 的 统计 信息 、 合 理 的 配置 参数 .高效 的 SQL 和 索引 ,以 及 优化 级 别 。 
下 一 节 将 讲 优化 级 别 。 

2.4.7 优化 级 别 

优化 级 别 指 定 了 各 种 优化 策略 , 当 编 译 和 优化 SQL 语句 时 ,优化 器 将 使 用 这 些 策略 。 

连接 方法 的 选择 就 取决 于 正在 使 用 的 优化 级 别 。 所 以 ,优化 器 并 非 总 是 使 用 上 面 所 描述 的 


每 种 存 取 路 径 技术 。 相 反 ,根据 优化 级 别 ,优化 器 使 用 各 种 不 同 的 技术 。 优 化 级 别 的 用 途 是 
通过 它 来 指导 DB2 何 时 采用 哪 种 优化 策略 和 优化 技术 。 通 常 ,优化 器 考虑 的 优化 策略 越 
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多 ,用 于 查询 的 存 取 方 案 就 越 好 。 然 而 , 当 优化 器 被 指导 去 考虑 的 优化 策略 越 多 ,把 SQL 编 
译 成 可 执行 的 存 取 路 径 的 准备 时 间 就 越 长 。 幸 运 的 是 ,可 以 设置 优化 级 别 来 限制 优化 查询 
时 所 应 用 的 优化 技术 数目 。 对 于 较 简 单 的 查询 .资源 受 限 系统 和 动态 SQL, 这 是 非常 有 
用 的 。 

影响 为 SQL 语句 生成 何 种 访问 方式 的 最 重要 因素 就 是 优化 级 别 ,优化 级 别 用 于 为 此 任 
务 做 准备 。 该 信息 告诉 DB2 优化 器 要 付出 多 少 努力 ,使 用 什么 优化 技术 来 确定 解决 查询 的 
最 佳 访问 计划 。 较 高 的 级 别 将 使 优化 器 使 用 更 为 复杂 的 算法 和 代数 分 析 , 因 而 也 需要 花费 
更 多 的 准备 时 间 ,来 生成 最 终 的 访问 计划 。 

有 7 个 可 用 的 优化 级 别 , 各 级 别 使 用 所 有 可 用 规则 和 统计 信息 的 不 同 子 集 。 可 用 的 优 
化 级 别 包 括 : 

0 一 一 使 用 最 少 的 优化 

1 一 一 所 用 的 优化 程度 大 致 与 DB2/6000 V1 相同 ,此 外 还 增加 了 一 些 V1 中 没有 的 低 
成 本 特性 

2 一 一 使 用 优化 级 别 5 的 特性 ,但 简化 了 连接 算法 

3 一 一 执行 中 等 数量 的 优化 ,与 DB2 for MVS/ESA 的 查询 优化 特征 相似 

5 一 一 使 用 大 量 优化 ,利用 Heuristic Rules( 若 未 另行 指定 ,这 将 是 默认 优化 级 别 ) 

7 一 一 使 用 无 Heuristic Rules 的 大 量 优化 

9 一 一 使 用 所 有 可 用 优化 技术 

提示 : 

Heuristic Rules 其 实 就 是 DB2 提供 了 一 种 人 工 智 能 的 专家 系统 , 它 存储 了 各 种 优化 规 
则 来 为 SQL 生成 最 优 的 访问 计划 。 

在 确定 要 使 用 的 最 佳 优化 级 别 时 ,以 下 指导 原则 可 给 予 用 户 很 大 的 帮助 : 

。 为 需要 很 少 的 优化 、 极 其 依赖 主键 索引 搜索 或 极 简单 的 连接 (例如 ,非常 简单 的 
OLTP) 的 查询 使 用 优化 级 别 0 或 1; 
若 查 询 比 较 简 单 , 仅 包含 少量 表 和 设计 表 的 索引 的 连接 (例如 ,OLTP), 则 设 查 询 使 
用 优化 级 别 为 1; 
对 包含 复杂 OLTP 的 工作 负载 或 包含 多 个 表 上 许多 复杂 连接 的 报告 (例如 ,混合 的 
OLTP 和 报告 ) ,应 设 使 用 优化 级 别 为 5; 
对 于 需要 大 量 数据 统计 数据 分 析 且 运行 时 间 较 长 (超过 1 分 钟 ) 的 查询 (例如 ,非常 
复杂 的 数据 研究 或 决策 支持 ) ,使 用 优化 级 别 设 为 9。DB2 优化 器 需要 花费 较 长 的 
时 间 来 生成 访问 计划 ,但 访问 计划 中 改进 的 成 本 往往 超出 产生 计划 所 花费 的 额外 
时 间 。 


2.4.8 如 何 影响 优化 器 来 提高 性 能 


读者 已 经 理解 了 优化 器 的 工作 原理 和 组 件 , 优 化 器 能 否 正常 高 效 工 作 取决 于 以 下 影响 
优化 器 工作 的 重要 性 能 准则 。 因 此 ,只 要 记 住 这 些 影 响 DB2 优化 器 的 准则 ,就 可 以 实现 这 
些 准则 以 便 获 得 更 好 的 SQL 性 能 。 

(1) 使 DB2 统计 信息 保持 最 新 

如 果 没 有 存储 在 DB2 系统 目录 中 的 统计 信息 ,优化 器 在 优化 任何 事务 时 都 会 遇 到 困 
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难 。 这 些 统计 信息 向 优化 器 提供 了 与 正在 被 优化 的 SQL 语句 将 要 访问 的 表 状 态 相关 的 信 
息 。 存 储 在 系统 目录 中 的 统计 信息 的 类 型 包括 : 

。 关于 表 的 信息 ,包括 总 的 行 数 ,关于 压缩 的 信息 和 总 页 数 ; 

。 关于 列 的 信息 ,包括 列 的 离散 值 的 数量 和 存储 在 列 中 的 值 的 分 布 范围 ; 

* 关于 表 空 间 的 信息 ,包括 活动 页 面 的 数量 和 硬件 描述 (Transtrate 和 Overhead); 

。 索引 的 当前 状态 ,包括 是 否 存在 索引 、 索 引 的 组 织 ( 叶 子 页 的 数量 和 级 别 的 数量 )、 索 

引 键 的 离散 值 数量 ,以 及 是 否 群 集 索 引 ; 

。 关于 表 空间 和 索引 节点 组 或 分 区 的 信息 。 

(2) 构建 适当 的 索引 

为 保证 最 佳 DB2 应 用 程序 性 能 而 可 以 做 的 最 重要 的 事 就 是 根据 应 用 程序 使 用 的 查询 ， 
为 表 创 建 正确 的 索引 。 创 建 的 索引 不 是 多 多 益 善 ,而 是 要 遵循 一 些 创建 索引 的 原则 。 

(3) 配置 合理 的 数据 库 配 置 参 数 

优化 器 在 工作 时 , 它 需 要 读 取 相关 数据 库 配 置 参 数 , 这 些 配置 参数 如 下 : 
AVG_APPLS( 平 均 应 用 程序 ): 此 参数 表示 为 数据 库 并 发 运行 应 用 程序 的 平均 数 
量 。DB2 使 用 此 信息 来 确定 排序 空间 和 缓冲 池 使 用 得 有 多 么 频繁 ,并 确定 查询 能 够 
使 用 的 空间 有 多 少 。 
SORTHEAP( 排 序 堆 ) : 排序 堆 是 执行 排序 时 可 用 的 内 存 空 间 数量 。 若 排序 需要 的 
内 存 多 于 排序 堆 中 可 用 内 存 , 则 部 分 排序 数据 将 不 得 不 分 页 到 磁盘 上 (这 会 对 性 能 
造成 严重 的 负面 影响 ) 。 
LOCKLIST( 锁 列表 ) : 该 参数 表示 DB2 可 用 于 存储 各 应 用 程序 的 锁定 信息 的 内 存 
数量 。 若 锁 列 表 空 间 过 小 , 则 DB2 可 能 必须 逐步 升级 (Escalate) 部 分 锁 , 以 便 为 应 
用 程序 具有 的 所 有 锁 腾 出 空间 。 
MAXLOCKS( 最 大 锁 列 表 百 分 比 ) : 该 参数 控制 整个 锁 列 表 空 间 中 有 百 分 之 多 少 的 
空间 可 为 一 个 应 用 程序 所 有 。 若 一 个 应 用 程序 具有 过 多 的 开放 锁 ,从 而 试图 占用 过 
多 的 内 存 ,DB2 将 升级 部 分 锁 ,以 释放 锁 列表 中 的 空间 ,这 会 影响 并 发 性 能 。 
NUM_FREQVALUES( 频 繁 值 数 ) : DB2 Runstats 实用 工具 使 用 频繁 值 数 来 控制 
DB2 将 在 内 存 中 保留 多 少 使 用 频率 最 高 的 值 。 优 化 器 使 用 该 信息 来 确定 WHERE 
子 句 中 的 一 个 谓词 将 消耗 结果 集 的 多 少 百分比 。 
NUM_QUANTILES( 数 据 分 位 数 ) : DB2 Runstats 实用 工具 使 用 分 位 数 来 控制 为 
列 数 据 捕获 多 少 分 位 。 增 加 分 位 数 将 给 予 DB2 关于 数据 库 中 数据 分 布 情 况 的 更 多 
DBHEAP( 数 据 库 堆 ): 数据 库 堆 控制 数据 库 对 象 信息 的 可 用 内 存量 。 对 象 包括 索 
引 、 缓 冲 池 和 表 空 间 。 事 件 监 控 器 和 日 志 缓 冲 区 信息 也 存储 在 这 里 。 
CPUSPEED(CPU 速度 ) : 计算 机 的 CPU 速度 。 
BUFFPAGE 和 缓冲 池 大 小 : 优化 器 可 在 优化 数据 中 使 用 的 缓冲 池 大 小 。 增 加 或 减 
少 缓冲 池 大 小 会 对 访问 计划 产生 显著 影响 。 

(4) 选择 合适 的 优化 级 别 

用 于 指定 在 编译 SQL 查询 时 所 使 用 的 默认 优化 级 别 。 对 于 混合 的 OLTP/OLAP, 使 
JH 5 2k 3 作为 默认 值 ; 对 于 OLTP, 使 用 一 个 更 低 的 级 别 ; 而 对 于 OLAP, 则 使 用 一 个 更 高 
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的 级 别 。 对 于 简单 的 SELECT 或 短 的 运行 时 查询 (通常 只 需 花 不 到 1 秒 就 可 以 完成 ) ,使 用 
1 或 0 也 许 比较 合适 。 如 果 有 很 多 的 表 , 有 很 多 相同 列 上 的 连接 谓词 ,那么 尝试 级 别 1 或 2。 
对 于 超过 30 秒 才能 完成 的 长 时 间 运 行 的 查询 ,或 者 如 果 要 搬入 一 个 UNION ALL VIEW 
(这 是 在 FixPak4 中 加 进来 的 ) ,那么 可 以 尝试 使 用 级 别 7。 在 大 多 数 环境 下 都 应 该 避免 使 
用 级 别 9。 用 户 一 定 要 根据 自己 的 业务 类 型 和 特点 来 选择 合适 的 优化 级 别 。 
(5) 合理 的 存储 I/O 设计 
优化 器 在 工作 时 ,需要 读 取 相关 硬件 信息 ,这 些 信息 是 通过 表 空 间 的 Transrate 和 
Overhead 这 两 个 参数 体现 的 。 
。 Transrate 二 (1/ 传 送 速率 ) * 1000/1024000 * 4096( 假 设 用 4KB 页 大 小 ); 
* Overhead 二 平均 寻 道 时 间 十 (((1/ 磁 盘 转 速 ) * 60 * 1000)/2) 而 平均 寻 道 时 间 、 磁 盘 
转速 和 传送 速率 是 由 硬盘 本 身 决定 的 。 所 以 必须 做 合理 的 存储 I/O 设计 和 选择 转 
速 更 快 的 硬盘 以 影响 优化 器 更 好 地 工作 。 
(6) 良好 的 应 用 程序 设计 和 编码 
进行 合适 的 应 用 编程 和 写 出 高 效 的 SQL 。 


2.5 SQL 调 优 概述 


经 常 听 到 有 做 应 用 的 朋友 抱怨 数据 库 的 性 能 问题 ,比如 非常 低 的 并 发 , 令 人 崩溃 的 响应 
时 间 ,长 时 间 的 锁 等 待 , 锁 升级 ,甚至 是 死 锁 ,等 等 。 在 解决 这 些 问 题 的 过 程 中 ,DBA 经 常 发 
现 应 用 开发 人 员 对 数据 库 的 “ 误 用 ”。 包 括 , 返 回 过 多 不 必要 的 数据 ,不 必要 和 不 适当 加 锁 ， 
对 隔离 级 别 的 误 用 和 对 存储 过 程 的 误 用 等 等 。 但 是 , 面 对 浩 如 烟 海 的 数据 库 知 识 , 要 求 完全 
掌握 ,对 应 用 开发 人 员 来 说 也 确实 枯燥 艰深 。 因 此 ,笔者 特别 提炼 对 应 用 开发 人 员 有 帮助 的 
SQL 书写 部 分 ,以 期 望 能 对 数据 库 开 发 人 员 有 所 帮助 。 

本 节 将 主要 讨论 基于 语法 的 优化 以 及 简单 的 查询 条 件 。 基 于 语法 的 优化 指 的 是 不 考虑 
任何 的 非 语法 因素 (例如 ,索引 , 表 大 小 和 存储 等 ), 仅 考虑 在 SQL 语句 中 对 于 词语 的 选择 以 
及 书写 的 顺序 。 


2.5.1 一 般 规则 


这 一 部 分 ,介绍 一 些 在 书写 简单 查询 语 时 需要 注意 的 通用 的 规则 。 
(1) 根据 权 值 来 优化 查询 条 件 
最 好 的 查询 语句 是 将 简单 的 比较 操作 作用 于 最 少 的 行 上 。 以 下 两 张 表 , 表 2.3 和 
x 2.4 以 由 好 到 差 的 顺序 列 出 了 典型 查询 条 件 操 作 符 并 赋予 权 值 。 
X13 ”查询 条 件 中 操作 符 的 权 值 


操 fE 符 Bo d 操 作 符 Bo od 
- 10 = 5 
>= 5 < 5 
<= 5 LIKE 3 
< 0 
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表 2.4 查询 条 件 中 操作 数 的 权 值 


操 作 数 权 d 
仅 常量 字符 
仅 有 列 名 
仅 有 参数 
多 操作 数 表达 式 
精确 数值 类 型 
其 他 数值 类 型 
时 间 数 据 类 型 
字符 数据 类 型 
NULL 


o 


e|o|-|-|m|e]|e|o 


根据 表 2. 3 和 表 2. 4 中 分 配 的 权 值 ,可 以 看 出 最 好 的 查询 条 件 应 该 是 像 下 面 这 样 的 : 


^ WHERE smallint column = 789 


这 个 例子 得 到 27 分 ,计算 如 下 : 

° 左 侧 只 有 列 名 (smallint_column) 得 5 分; 
。 操作 数 为 精确 数据 类 型 (smallint_column) 得 2 分 ; 
。 等 号 (=) 操 作 符 得 10 分 ; 

* 碳 侧 是 文字 字符 (789) 得 10 分 。 

下 面 是 另外 一 个 例子 

... WHERE char column? = varchar column || ' x ' 
这 种 类 型 的 查询 权 值得 分 就 很 低 , 只 有 13 分 : 
左 侧 只 有 列 名 (char_column) 得 5 分; 
字符 数据 类 型 的 操作 数 得 0 分 ; 

大 于 等 于 操作 符 得 S 分 ; 

左 侧 是 多 操作 数 表达 式 得 3 分 ; 

* VARCHAR 类 型 的 操作 数 得 0 分 。 

上 面 表格 中 的 权 值 数 可 能 在 不 同类 型 的 数据 库 系统 中 会 有 所 不 同 , 所 以 记 住 这 些 具 体 
数值 是 没有 意义 的 ,只 需要 了 解 它们 的 排序 即 可 。 用 时 越 少 的 比较 条 件 , 得 分 也 就 越 高 ,这 
样 的 比较 条 件 通常 是 那些 操作 的 行 数 少 或 者 易于 比较 的 。 

(2) 传递 法 则 

传递 法 则 是 这 样 定义 的 : 

IF 

(A < comparison operator > B) IS TRUE 

AND (B < comparison operator > C) IS TRUE 

THEN 

(A < comparison operator > C) IS TRUE 

AND NOT (A < comparison operator > C) IS FALSE 

比较 运算 符 包括 : =.>, — V ,十 ,但 不 包括 : < 二 、LIKE。 

通过 传递 法 则 ,可 以 看 出 ,可 以 用 C 来 蔡 换 B, 而 不 使 表达 式 的 意思 发 生变 化 。 
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下 面 的 两 个 例子 表达 了 同样 的 含义 ,但 是 表达 式 2 要 比 表达 式 1 执行 的 快 。 
表达 式 1: 

... WHERE column1 < column2 

RND column2 = column3 

AND columnl = 5 


表达 式 2; 

... WHERE 5 < column2 

AND column2 - column3 

AND columnl = 5 

大 多 数 的 数据 库 管 理 系统 都 会 自动 做 这 样 的 调整 ,但 是 当 表 达 式 中 含有 括号 时 ,它们 就 
不 会 自动 调整 了 。 例 如 一 个 如 下 的 SELECT ii]: 

SELECT * FROM Tablel 

WHERE columnl = 5 AND 

NOT (column3 = 7 OR columni = column2) 

如 果 进 行 转化 的 话 , 会 得 到 如 下 的 语句 : 


SELECT * FROM Tablel 
WHERE columnl = 5 
AND column3 <> 7 
AND column2 <> 5 


进行 这 样 变 化 后 的 语句 会 比 第 一 个 执行 的 更 快 。 

(3) Sargability 

理想 的 SQL 表达 式 应 该 采用 下 面 这 种 通用 的 格式 : 

< column >< comparison operator ><literal > 

IBM 研究 人 员 将 这 种 查询 条 件 语句 命名 为 Srgable Predicates, 因 为 SARG 是 Search 
ARGument 的 组 合 。 

根据 这 一 规则 ,查询 条 件 的 左 侧 应 该 是 一 个 列 名 ; 右 侧 应 该 是 一 个 很 容易 进行 查找 
的 值 。 

遵循 这 一 规则 ,所 有 的 数据 库 系统 都 会 将 如 下 的 表达 式 : 


5 = columni 


转换 成 : 


columnl =5 


但 是 当 查 询 条 件 中 包含 算术 表达 式 时 ,只 有 部 分 的 数据 库 系 统 进行 转换 。 
例如 : 


... WHERE column1 - 3= - column2 


转换 成 : 


... WHERE columnl = 一 column2 + 3 
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还 是 可 以 带 来 查询 性 能 的 优化 的 。 
2.5.2 针对 专门 操作 符 的 调 优 


前 面 , 讲 的 是 关于 查询 条 件 的 一 般 规 则 ,在 这 一 节 中 ,将 讨论 如 何 使 用 专门 的 操作 符 来 
改进 SQL 代码 的 性 能 。 

a) 与 (AND) 

数据 库 系统 按 从 左 到 右 的 顺序 来 解析 一 个 由 AND 连接 的 表达 式 , 但 是 Oracle 却 是 个 
例外 , 它 是 从 右 向 左 地 解析 表达 式 。 可 以 利用 数据 库 系统 的 这 一 特性 ,来 将 概率 小 的 表达 式 
放 在 前 面 ,或 者 是 如 果 两 个 表达 式 可 能 性 相同 ,那么 可 将 相对 不 复杂 的 表达 式 放 在 前 面 。 这 
样 做 的 话 , 如 果 第 一 个 表达 式 为 假 的 话 ,那么 数据 库 系统 就 不 必 再 费力 去 解析 第 二 个 表达 式 
了 。 例 如 ,可 将 


... WHERE columnl = 'A' AND column2 = 'B' 


转换 成 : 


... WHERE column2 = 'B' AND column1 = 'A' 


这 里 假设 column2 = 'B' 的 概率 较 低 ,如 果 是 Oracle 数据 库 的 话 , 只 需 将 规则 反 过 来 用 
即 可 。 

(2) 或 (OR) 

和 与 (AND) 操 作 符 相 反 , 用 或 (OR) 操 作 符 写 SQL 语句 时 ,就 应 该 将 概率 大 的 表达 式 
放 在 左面 ,因为 如 果 第 一 个 表达 式 为 假 的话 ,OR 操作 符 意味 着 需要 进行 下 一 个 表达 式 的 
解析 。 

(3) 与 十 或 

按照 集合 的 展开 法 则 ， 

A AND (B OR C) 与 (A AND B) OR (A AND C) 是 等 价 表达 式 。 

假设 表 2. 5 中 ,要 执行 一 个 AND 操作 符 在 前 的 表达 式 : 

SELECT * FROM Tablel 


WHERE (column1 = 1 AND column2 = 'A') 
OR (columni = 1 AND column2 = 'B') 


32.5 AND 十 OR 查询 


Row# Colmun1 Column2 
1 3 A 
2 2 B 
3 1 C 


当 数 据 库 系统 按照 查询 语 进行 搜索 时 , 它 按照 下 面 的 步骤 执行 ， 
* 索引 查找 column1 = 1.25 4€ — (row 3}; 

* 索引 查找 column2— 'A'. RE = {rowl}; 

。 AND 合并 结果 集 , 结 果 集 二 {); 

。 索引 查找 column 1 三 1, 结 果 集 一 {row 3}; 
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。 索引 查找 column 2='B' ZR 4E — (row2) ; 

。 AND 合并 结果 集 , 结 果 集 二 {); 

。 OR 合并 结果 集 , 结 果 集 二 {}。 

现在 根据 集合 的 展开 法 则 ,对 上 面 的 语句 进行 转换 : 

SELECT * FROM Tablel 

WHERE columnl = 1 

AND (column2 = 'A'OR column2 = 'B') 

按照 新 的 顺序 进行 查询 搜索 时 , 它 按 照 下 面 的 步骤 执行 : 

* 索引 查找 column2— 'A'. RE = (rowl); 

。 索引 查找 column 2— 'B', 结 果 集 = (row2) ; 

。 OR 合并 结果 集 , 结 果 集 二 {}; 

。 索引 查找 columnl=1, 4 RE = (row 3); 

* AND 合并 结果 集 , 结 果 集 二 {)。 

由 此 可 见 搜索 次 数 少 了 一 次 。 虽 然 一 些 数据 库 操作 系统 会 自动 进行 这 样 的 转换 ,但 是 
对 于 简单 的 查询 来 说 ,这 样 的 转换 还 是 有 好 处 的 。 

OD 非 (NOT) 

让 非 (NOT) 表 达 式 转换 成 更 易 读 的 形式 。 简 单 的 条 件 能 通过 将 比较 操作 符 进行 反 转 
来 达到 转换 的 目的 ,例如 : 

... WHERE NOT (columnl > 5) 
转换 成 ， 

... WHERE column1 < = 5 

比较 复杂 的 情况 ,根据 集合 的 摩根 定理 : 

NOT (A AND B) = (NOT A) OR (NOT B) ffl NOT (A OR B) = (NOT A) AND (NOT B) 

根据 这 一 定理 ,可 以 看 出 它 至 少 有 两 次 的 搜索 有 可 能 减少 为 一 次 。 如 下 的 查询 条 件 : 

... WHERE NOT (columnl > 5 OR column2 = 7) 
可 以 转换 成 ， 


... WHERE column1 <=5 
RND column2 <> 7 


但 是 , 当 转 换 成 后 的 表达 式 中 有 不 等 操作 符 一 二 ,那么 性 能 就 会 下 降 , 毕 竞 ,在 一 个 值 平 
均 分 布 的 集合 中 ,不 等 的 值 的 个 数 要 远 远大 于 相等 的 值 的 个 数 , 正 因为 如 此 ,一 些 数据 库 系 
统 不 会 对 非 比较 进行 索引 搜索 ,但 是 它们 会 为 大 于 或 小 于 进行 索引 搜索 ,所 以 可 以 将 下 面 的 
查询 进行 如 下 转换 : 

-.. WHERE NOT (columni = 0) 


转换 成 : 


... WHERE column < 0 
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OR column > 0 


(5) IN 
很 多 人 认为 如 下 的 两 个 查询 条 件 没有 什么 差别 ,因为 它们 返回 的 结果 集 是 相同 的 。 
条 件 1: 


... WHERE column1 = 5 
OR columni = 6 


条 件 2: 


... WHERE columnl IN (5,6) 


这 样 的 想法 并 不 完全 正确 ,对 于 大 多 数 的 数据 库 操作 系统 来 说 ,IN 要 比 OR 执行 得 快 。 
所 以 如 果 可 以 的 话 , 要 将 OR 换 成 IN。 

当 IN 操作 符 , 是 一 系列 密集 的 整 型 数字 时 ,最 好 是 查找 哪些 值 不 符合 条 件 , 而 不 是 查 
找 哪些 值 符合 条 件 , 因 此 ,如 下 的 查询 条 件 就 应 该 进行 如 下 的 转换 : 

... WHERE column1 IN (1,3,4,5) 


转换 成 : 


... WHERE columni BETWEEN 1 AND 5 
AND columnl <> 2 


当 一 系列 的 离散 的 值 转换 成 算数 表达 式 时 ,也 可 获得 同样 的 性 能 提高 。 

(6) UNION 

在 SQL 中 ,两 个 表 的 UNION 就 是 两 个 表 中 不 重复 的 值 的 集合 , 即 UNION 操作 符 返 
回 的 两 个 或 多 个 查询 结果 中 不 重复 行 的 集合 。 这 是 一 个 很 好 的 合并 数据 的 方法 ,但 是 这 并 
不 是 最 好 的 方法 。 

查询 1. 

SELECT * FROM Tablel 

WHERE columnl = 5 

UNION 


SELECT * FROM Tablel 
WHERE column2 - 5 


查询 2: 

SELECT DISTINCT * FROM Tablel 

WHERE columnl = 5 

OR column2 = 5 

在 上 面 的 例子 中 ,columnl 和 column? 都 没有 索引 。 如 果 查 询 2 总 是 比 查 询 1 执行 快 
的 话 ,那么 就 可 以 建议 总 是 将 查询 1 转换 成 查询 2, 但 是 有 一 种 情况 ,这 样 做 在 一 些 数据 库 
系统 中 可 能 会 带 来 性 能 变 差 ,这 是 由 于 两 个 优化 缺陷 所 造成 的 。 

第 一 个 优化 缺陷 就 是 很 多 优化 器 只 优化 一 个 SELECT 语句 中 一 个 WHERE 语句 ,所 
以 查询 1 的 两 个 SELECT 语句 都 被 执行 。 首 先 优化 器 根据 查询 条 件 column =5 为 真 来 查 
找 所 有 符合 条 件 的 所 有 行 , 然 后 根据 查询 条 件 column2 — 5 为 真 来 查找 所 有 符合 条 件 的 所 
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有 行 , 即 两 次 表 扫 描 , 因 此 ,如 果 column1 —5 没有 索引 的 话 , 查 询 1 将 需要 2 倍 于 查询 2 所 
需 的 时 间 。 如 果 column1—5 有 索引 的 话 , 仍 然 需要 二 次 扫描 ,但 是 只 有 在 某 些 数据 库 系统 
存在 一 个 不 常见 的 优化 缺陷 却 将 第 一 个 优化 缺陷 给 弥补 了 。 当 一 些 优化 器 发 现 查 询 中 存在 
OR 操作 符 时 ,就 不 使 用 索引 查询 ,所 以 在 这 种 情况 下 ,并 且 只 有 在 这 种 情况 下 , UNION 才 
比 OR 性 能 更 高 。 这 种 情况 很 少见 ,所 以 仍然 建议 大 家 当 待 查询 的 列 没 有 索引 时 使 用 OR 
来 代替 UNION, 


Cos 
— ' — 


数据 库 开 发 


本 章 将 会 讨论 数据 库 开 发 的 问题 ,讲解 DB2 与 JDBC 支持 , 旧 的 JDBC 驱动 程序 与 新 的 
通用 JDBC 驱动 程序 的 比较 等 内 容 。 


3.1 DB2 与 JDBC 支持 


依照 JDBC 规范 ,有 四 种 类 型 的 JDBC 驱动 程序 体系 结构 : 

Type 1; 这 类 驱动 程序 将 JDBC API 作为 到 另 一 个 数据 访问 API 的 映射 来 实现 ,如 开 
放 式 数据 库 连 通 性 (Open Database Connectivity,ODBC)。 这 类 驱动 程序 通常 依赖 本 机 库 ， 
这 限制 了 其 可 移植 性 。JDBC-ODBC 桥 驱 动 程序 就 是 Type 1 驱动 程序 的 最 常见 的 例子 。 

Type 2: 这 类 驱动 程序 部 分 用 Java 编程 语言 编写 ,部 分 用 本 机 代码 编写 。 这 些 驱动 程 
序 使 用 特定 于 所 连接 数据 源 的 本 机 客户 端 库 。 同 样 ,由 于 使 用 本 机 代码 ,所 以 其 可 移植 性 受 
到 限制 。 

Type 3: 这 类 驱动 程序 使 用 纯 Java 客户 机 ,并 使 用 独立 于 数据 库 的 协议 与 中 间 件 服务 
器 通信 ,然后 中 间 件 服务 器 将 客户 机 请 求 传 给 数据 源 。 

Type 4; 这 类 驱动 程序 是 纯 Java, 实 现 针 对 特定 数据 源 的 网 络 协议 。 客 户 机 直接 连接 
至 数据 源 。 

对 于 DB2 UDB V7.2 来 说 , 它 不 支持 Type 1 和 Type 4 的 驱动 程序 ,但 是 提供 了 分 别 
支持 Type 2 和 Type 3 的 驱动 程序 。 

示例 如 下 : 

两 种 驱动 程序 均 随 产品 安装 由 db2java. zip 提供 。 

(1) COM. ibm. db2. jdbc. app. DB2Driver 

这 是 一 种 Type 2 的 JDBC 驱动 程序 , 它 通过 DB2 本 地 客户 机 库 的 帮助 建立 和 DB2 本 
地 数据 库 或 是 远程 数据 库 的 连接 (事先 将 远程 数据 库 编目 到 本 地 )。 因 此 ,必须 在 应 用 系统 
所 在 的 机 器 上 同时 部 署 DB2 本 地 客户 机 库 , 这 也 许 是 它 最 大 的 一 个 不 足 之 处 。 

使 用 格式 如 下 : 


Driver Name: COM. ibm. db2. jdbc. app. DB2Driver 
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URL Pattern: jdbc:db2:databasename 

databasename: 需要 访问 的 数据 库 名 

(2) COM. ibm. db2. jdbc. net. DB2Driver 

这 是 一 种 Type 3 的 JDBC 驱动 程序 , 它 通 过 与 一 台 已 经 部 署 了 DB2 本 地 客户 机 库 的 
机 器 通信 来 建立 和 DB2 远程 数据 库 的 连接 。 

使 用 格式 如 下 : 

Driver Name: COM. ibm. db2. jdbc. net. DB2Driver 

URL Pattern: jdbc:db2:ServerIP:databasename 

ServerIP: 需要 访问 的 数据 库 所 在 机 器 IP 地 址 

databasename: 需要 访问 的 数据 库 名 

(目标 DB2 系统 侦 听 该 服务 于 默认 端口 6789 ,否则 还 需要 在 URL Pattern 中 指定 目标 
端口 号 ) 

对 于 DB2 UDB V8. 1 来 说 , 它 仍 然 不 支持 Type 1 的 驱动 程序 。 同 时 , 它 在 DB2 UDB 
V8. 1 的 基础 上 ,新 增加 了 对 Type 4 驱动 程序 的 支持 。 

示例 如 下 : 

DB2 UDB V8. 1 仍然 支持 上 面 所 述 V7. 2 支持 的 两 种 驱动 程序 , 随 产品 安装 由 
db2java. zip 提供 ,但 具体 实现 上 和 DB2 UDB V7. 2 产品 发 布 的 包 有 所 不 同 ,所 以 可 能 存在 
下 文 所 要 进行 实验 验证 的 兼容 性 问题 。 

除了 COM. ibm. db2. jdbc. app. DB2Driver 之 外 ,DB2 UDB V8. 1 还 提供 了 另外 一 种 
Type 2 的 驱动 程序 , 随 产品 安装 由 db2jcc. jar 提供 。 其 实现 包 名 是 com. ibm. db2. jec. 
DB2Driver.f£ DB2 UDB V8. 1 最 初 的 实现 中 ,此 驱动 程序 只 用 于 使 用 Type 4 驱动 程序 体 
系 结构 与 DB2 服务 器 进行 直接 的 Java 连接 ,这 类 驱动 程序 由 于 不 需要 另外 部 署 DB2 本 地 
客户 机 库 以 及 性 能 相对 较 好 而 收 到 开发 人 员 的 欢迎 。 自 从 DB2 UDB V8. 1. 2( 安 装 了 
FixPack 2) 之 后 ,开发 人 员 还 可 以 在 Type 2 体系 结构 中 使 用 该 驱动 程序 ,以 提高 本 地 应 用 
程序 的 性 能 。 

这 里 ,两 种 驱动 程序 具有 相同 的 实现 类 名 称 , 有 两 种 不 同 的 方法 可 以 区 分 DB2 系统 在 
内 部 最 终 会 实例 化 哪个 驱动 程序 : 

(1) 使 用 不 同 的 URL Pattern 来 区 分 两 种 不 同 的 驱动 程序 。 

Type 2 Driver URL Pattern: jdbc:db2:databasename 

这 当中 databasename 是 需要 访问 的 数据 库 名 


Type 4 Driver URL Pattern: jdbc:db2://ServerIP:50000/databasename 


这 当中 ServerIP 是 需要 访问 的 数据 库 所 在 机 器 IP 地 址 , databasename 是 需要 访问 的 
数据 库 名 ,DB2 服务 器 会 在 默认 端口 50000 上 进行 侦 听 。 

(2) 使 用 连接 特性 来 区 分 数据 库 连接 是 否 会 使 用 DB2 本 地 客户 机 库 , 或 者 是 使 用 Java 
直接 连接 。 

DB2 UDB V8. 1 新 增加 支持 的 这 种 Type 4 驱动 程序 , 常 被 称 为 “通用 JDBC 驱动 程 
序 ”, 是 一 种 与 驱动 程序 类 型 连通 性 或 目标 平台 无 关 的 抽象 JDBC 处 理 器 ,因此 常用 于 进行 
分 布 式 和 本 地 DB2 UDB 访问 。 因 为 “通用 JDBC 驱动 程序 ”独立 于 任何 特定 JDBC 驱动 程 
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序 类 型 连通 性 或 目标 平台 ,所 以 它 在 一 个 DB2 UDB 驱动 程序 实例 中 同时 支持 所 有 Java 3€ 
通 性 (Type 4 驱动 程序 ) 和 基于 JNI 的 连通 性 (Type 2 驱动 程序 ) 。 该 驱动 程序 可 以 用 于 独 
立 Java 应 用 程序 或 多 层 应 用 程序 ,是 开发 人 员 一 个 不 错 的 选择 。 


3.2 理解 DB2 UDB JDBC 通用 驱动 程序 


在 DB2 环境 中 的 Java 开发 的 演变 过 程 中 ,最 近 的 动向 是 DB2 UDB JDBC 通用 驱动 程 
序 。 这 种 新 的 驱动 程序 提供 了 很 多 优点 和 改进 ,使 它 成 为 应 用 程序 开发 的 最 佳 选择 。 这 节 
读者 将 理解 这 种 驱动 程序 的 内 部 工作 原理 ,并 看 看 它 是 怎样 匹配 整个 应 用 程序 开发 计划 的 。 

首先 比较 两 种 现 有 的 驱动 程序 : 

。 旧 的 CLI 驱动 程序 ; 

。 新 的 JDBC 通用 驱动 程序 。 

在 本 节 中 ,主要 通过 以 下 几 方 面 来 展示 这 两 种 驱动 程序 之 间 的 不 同 之 处 : 

。 安装 ; 

。 连接 ; 

。 驱动 程序 初始 化 ; 

。 特性; 

。 错误 处 理 ; 

。 事务 管理 。 

并 且 本 节 将 讨论 问题 诊断 和 对 跟踪 的 分 析 。 要 理解 如 何 做 这 件 事 ,需要 了 解 
SQLException ,以 及 它 与 JDBC 有 怎样 的 关联 。 对 于 新 的 JDBC 通用 驱动 程序 ,将 讲解 如 何 
进行 JCC 跟踪 ,以 及 进行 JCC 跟踪 时 需要 些 什么 。 完 成 跟踪 后 ,将 深入 了 解 跟踪 由 哪些 家 
分 组 成 ,以 及 如 何 使 用 跟踪 来 帮助 找到 问题 的 根源 。 


3.2.1 W JDBC 了 驱动 程序 与 新 的 通用 JDBC 驱动 程序 的 比较 


要 想 理 解 对 DB2 通用 驱动 程序 的 开发 ,就 需要 理解 JDBC 规范 如 何 定 义 用 于 Java 的 不 
同类 型 的 驱动 程序 。 

(1) Type 1 驱动 程序 

这 类 驱动 程序 的 代码 直接 与 本 机 API 形成 映射 。JDBC 和 ODBC 是 类 似 的 API, 所 以 
这 种 驱动 程序 常常 与 JDBC-ODBC 桥 联 系 在 一 起 。 

这 类 驱动 程序 与 DB2 UDB 产品 没有 太 多 的 关联 。 

(2) Type 2 驱动 程序 

Type 2 驱动 程序 中 有 一 个 本 机 组 件 , 该 组 件 是 驱动 程序 的 一 部 分 ,但 与 数据 访问 API 
相 分 离 。 这 个 本 机 组 件 和 Java 组 件 一 起 构成 驱动 程序 。 

对 于 DB2 UDB,DB2 CLI 库 包含 本 机 组 件 。 

(3) Type 3 驱动 程序 

这 是 一 个 Java 客户 机 ,使 用 独立 于 数据 库 的 协议 进行 通信 。 

由 于 这 种 协议 是 独立 于 数据 库 的 ,这 个 优点 使 之 适合 于 作为 异 构 后 端 服 务 器 网 关 的 中 
间 件 服务 器 。 
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(4) Type 4 驱动 程序 

这 类 驱动 程序 是 纯 Java 编写 的 , 它 实现 了 用 于 特定 数据 源 的 网 络 协议 。 客 户 机 直接 连 
接 到 数据 源 。 

谈 到 DB2 UDB, 用 户 只 需 关心 Type 2,3 和 4 驱动 程序 。 有 了 前 面 介绍 的 知识 ,现在 可 
以 看 看 关于 Type 2 和 Type 4 驱动 程序 的 一 些 专门 信息 ,并 考察 在 应 用 程序 开发 中 使 用 
Type 4 驱动 程序 的 优点 。 来 看 看 旧 的 CLI Type 2 驱动 程序 与 Type 4 通用 JDBC 驱动 程序 
之 间 的 比较 。 

。 安装 

DB2 JDBC 支持 包含 在 DB2 UDB 客户 机 和 服务 器 的 Java enablement 选项 中 。 不 需要 
专门 安装 DB2 JDBC 驱动 程序 ,用 户 只 需 确 保 下 载 了 适合 于 平台 的 Java 开发 工具 箱 
(JDK), DB2 Information Center 包含 关于 如 何在 UNIX 和 Windows 上 为 Java 设置 环境 
的 详细 信息 。 表 3. 1 所 示 是 旧 的 CLI 驱动 程序 和 通用 驱动 程序 的 安装 比较 。 

表 3.1 安装 比较 


旧 的 CLI 驱动 程序 通用 驱动 程序 


旧 的 CLI 驱动 程序 的 物理 表示 是 db2java. zip 文件 


通用 JDBC 驱动 程序 的 物理 表示 是 db2jcc. jar 文件 


在 UNIX 环境 中 ,内 需 在 CLASSPATH 中 有 sqllib/ 
java/db2java. zip, 就 可 以 使 用 旧 的 Type 2 驱动 程 
序 。 在 Windows 上 也 是 如 此 


在 UNIX 环境 中 ,只 需 在 CLASSPATH 中 有 db2jcc_ 
license_cu. jar 和 sqllib/java/db2jcc. jar, 就 可 以 使 用 
Type 4 通用 驱动 程序 。 在 Windows 上 也 是 如 此 


支持 这 类 驱动 程序 的 有 JDBC 2.0 和 部 分 JDBC 3.0 


° 连接 


支持 这 类 驱动 程序 的 是 大 多 数 JDBC 3. 0 实现 ,只 要 
安装 了 JDK1. 4. x 作为 Java 包 的 一 部 分 ,就 提供 了 
对 这 类 驱动 程序 的 支持 


这 两 类 驱动 程序 的 不 同 之 处 表现 在 它们 建立 连接 的 方式 上 。JDBC 的 基本 功能 是 连接 
到 数据 库 ,并 发 送 SQL 语句 到 服务 器 。 它 能 够 处 理 结果 集 , 并 将 其 发 送 给 请 求 者 。 表 3. 2 
所 示 是 旧 的 CLI 驱动 程序 和 通用 驱动 程序 的 连接 比较 。 
表 3.2 连接 比较 


旧 的 CLI 驱动 程序 


通用 驱动 程序 


到 数据 库 的 连接 是 通过 一 个 本 机 数据 库 接口 进行 
的 。 在 这 里 ,DB2 使 用 CLI。JDBC 层 位 于 CLI Z 
上 ,CLI 是 与 数据 库 服 务 器 通信 的 本 机 组 件 


一 切 都 是 纯 Java 的 ,与 数据 库 的 通信 通过 网 络 通信 
完成 。DB2 UDB 使 用 分 布 式 关 系数 据 库 架 构 
(DRDA) 来 与 服务 器 进行 通信 ,并 将 请 求 传递 给 数据 
库 服 务 器 


因为 旧 的 CLI 驱动 程序 需要 公共 客户 机 代码 ,所 以 
它 还 需要 一 个 DLL/ 共 享 对 象 。 为 了 使 用 这 类 驱动 
程序 ,必须 安装 DB2 产品 


这 是 一 种 纯 Java 的 驱动 程序 ,可 独立 于 它 所 在 机 器 
上 安装 的 产品 而 运行 。 也 就 是 说 ,可 以 将 它 看 作 一 
个 单独 的 实体 , 它 是 独立 于 附带 它 的 那个 DB2 p= 
品 的 


。 驱动 程序 初始 化 


在 使 用 不 同 的 驱动 程序 时 ,用 于 装载 该 驱动 程序 的 代码 也 会 有 所 不 同 。 有 两 种 建立 连 
接 的 方式 。 和 所 有 JDBC 资源 一 样 , 在 使 用 完 连 接 时 ,要 调用 连接 关闭 方法 。 表 3. 3 所 示 是 
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旧 的 CLI 驱动 程序 和 通用 驱动 程序 的 驱动 程序 初始 化 连接 比较 。 
表 3.3 驱动 程序 初始 化 比较 


旧 的 CLI 驱动 程序 


通用 驱动 程序 


为 装载 驱动 程序 和 建立 连接 ,需要 三 个 基本 步骤 : 
导入 JDBC 核心 类 (例如 import java. sql * ) 

装载 JDBC 驱动 程序 Class. forName (COM. ibm. 
db2. jdbc. app. DB2Driver) 

指定 连接 URL: DriverManager getConnection jdbc: 
db2 :coffebk 


通用 驱动 程序 支持 通过 单个 driver. h 网 络 通信 的 
Type 2 和 Type 4 连接 。DB2 UDB 使 用 分 布 式 关系 
数据 库 架 构 (DRDA) 来 与 服务 器 进行 通信 ,并 将 请 求 
传递 给 数据 库 服务 器 。 
所 使 用 的 是 Type 2 还 是 Type 4 驱动 程序 ,是 通过 连 
接 的 形式 来 指定 的 。 下 面 的 连接 形式 表明 使 用 的 是 
Type 2 还 是 Type 4 驱动 程序 ; 
jdbc:db2//server:port/database 
jdbc : db2/ /server/database 


下 面 的 连接 形式 意味 着 使 用 的 驱动 程序 是 Type 2 
驱动 程序 : 


jdbc:db2:database 


如 果 愿 意 , 也 可 以 使 用 Type 3 驱动 程序 ,在 这 种 情 
况 下 , 驱动 程序 的 初始 化 就 是 : COM. ibm. db2. 
jdbc. net. DB2Driver 


。 特 性 


可 以 通过 所 使 用 的 连接 级 别 在 这 两 类 驱动 程序 的 物 
质 层 之 间 进 行 切换 


随 着 DB2 UDB, Version 8 的 出 现 ,Java 开发 变 得 更 加 强大 ,而 且 编 程 工作 也 更 具有 独 
立 性 。 现 在 ,开发 过 程 中 的 大 部 分 精力 都 集中 在 添加 新 特性 、 改 善 新 的 JDBC 通用 驱动 程序 
的 内 存 管理 和 稳定 性 上 。 表 3.4 所 示 是 旧 的 CLI 驱动 程序 和 通用 驱动 程序 的 特性 比较 。 


表 3.4 特性 比较 
旧 的 CLI 驱动 程序 通用 驱动 程序 
这 类 驱动 程序 需要 专门 安装 DB2 UDB 产品 , | 这 类 驱动 程序 可 以 看 作 一 个 独立 的 产品 。 不 需要 安装 产 
因为 它 依 赖 于 该 产品 的 本 机 代码 品 , 因 为 可 以 随 很 多 DB 平台 一 起 提供 它 


旧 的 驱动 程序 版 本 是 和 DB2 UDB 修复 包 相 
对 应 的 ,只 能 随 一 个 修复 包 一 起 发 布 


JCC 驱动 程序 的 发 布 独立 于 修复 包 。JCC 驱动 程序 有 它 
们 自己 的 版 本 ,它们 是 根据 DB2 产品 不 同 发 行 版 的 需要 发 
布 的 。 
动 程序 ,而 DB2 V8. 20 OS/390 PTF UQ72081 可 能 附带 
2.3.11 版 的 JCC 驱动 程序 


例如 ,DB2 V8. 20 fp9 可 能 附带 2. 3. 9 版 的 JCC 驱 


° 错误 处 理 


这 两 类 JDBC 驱动 程序 处 理 错 误 的 方式 大 相 径 庭 。 新 驱动 程序 的 错误 消息 仍 在 开发 
中 ,但 是 对 于 通用 驱动 程序 而 言 , 版 本 越 新 ,其 错误 处 理 功能 越 好 。 典 型 的 JDBC 异常 通常 
由 SQLErrorCode, SQLState 和 SQLMessage 组 成 。 表 3. 5 所 示 是 旧 的 CLI 驱动 程序 和 通 


用 驱动 程序 错误 处 理 比较 。 
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表 3.5 错误 处 理 比较 


旧 的 CLI 驱动 程序 通用 驱动 程序 
E = = m 
旧 的 驱动 程序 从 DB2 产品 获得 错误 消息 , 然 通用 驱动 程序 不 会 重新 创建 由 CLVJDBC Morse 
后 将 整个 错误 消息 传递 给 应 用 程序 的 、 预 先 存在 的 SQL 错误 代码 。 通 用 驱动 程序 有 它 自 己 
i 定义 的 错误 代码 ,其 范围 为 十 /一 4200 和 十 /一 4299 
由 通用 驱动 程序 发 出 的 未 定义 的 错误 代码 被 指定 
为 一 99 999 
如 果 收 到 来 自 一 个 DB2 子 系统 (例如 底层 DB2 客户 机 库 
的 DB2 服务 器 ) 的 错误 ,那么 JCC 只 是 回 显 那 条 错误 消息 
。 事务 管理 


事务 是 一 条 或 多 条 语句 的 集合 ,这 些 语句 作为 一 个 工作 单元 (UOW) 一 起 执行 。 使 用 
事务 是 为 了 确保 一 个 UOW 中 的 所 有 处 理 要 么 一 起 执行 ,要 么 都 不 执行 。 对 于 这 些 驱 动 程 
序 ,J2EE 指定 了 简单 的 事务 管理 。 表 3. 6 所 示 是 旧 的 CLI 驱动 程序 和 通用 驱动 程序 的 事 
务 管理 比较 。 

表 3.6 事务 管理 


旧 的 CLI 驱动 程序 通用 驱动 程序 
对 于 这 类 驱动 程序 ,很 早 就 已 经 提供 了 XA 支持 从 V8. 20 开始 ,Type 4 JDBC 通用 驱动 程序 有 了 XA 支持 


3.2.2 诊断 间 题 和 分 析 跟 踪 


1. JDBC 跟踪 的 组 成 

在 DB2 中 ,无 论 何 时 收 到 任何 类 型 的 异常 , 接 下 来 的 一 步 就 是 找 出 那个 错误 的 来 源 。 
在 大 多 数 情况 下 ,要 找 出 错误 的 起 因 ,需要 进行 某 种 类 型 的 跟踪 ,以 便 通 过 跟踪 来 揭示 导致 
错误 的 调用 序列 。 

来 看 看 在 Java 中 导致 错误 的 调用 序列 ,并 研究 在 通常 的 Java 应 用 程序 中 处 理 错 误 的 
机 制 。 

在 图 3. 1 中 可 以 看 到 ,Java 运行 时 环境 (JRE) 包 含 用 Java 实现 的 错误 处 理 机制 。JRE 
就 像 汽车 中 的 引擎 一 样 ,使 所 有 组 件 能 够 运行 起 来 。 

各 组 件 可 以 由 实际 代码 来 表示 ,这些 用 Java 编写 的 代码 总 是 包含 try C ) 和 catch( ) 这 
两 个 代码 块 。 每 当 实 际 代码 碰 到 任何 类 型 的 错误 , 它 就 抛 出 一 个 异常 ,然后 该 异常 就 进入 调 
用 栈 。 调 用 栈 将 异常 传递 给 catch( ) 块 .异常 正 是 通过 这 种 方式 被 返回 给 用 户 的 。 

为 了 允许 JDBC 程序 抛 出 SQLException, 在 技术 实现 上 要 确保 程序 能 访问 com. ibm. 
db2. jcc. DB2Diagnosable 接口 和 com. ibm. db2. jec. DB2Sqlca 类 。 可 以 使 用 它们 的 完全 限 
定 引 用 ,也 可 以 导入 它们 : 


import com. ibm. db2. jcc. DB2Diagnosable; 
import com. ibm. db2. jcc. DB2Sq1ca 


2. SQLException 的 组 成 
SQLException() 类 由 以 下 几 个 部 分 组 成 : 
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SQLException( 

Description of the error: null, string 
SQL State: null,string 

Error code: int value 

Next SQLException: null or pointer 

) 


Java runtime environment 


Actual code Call stack 


tryfblock of codej |—— — — Exception handler 
for stack 


Code the could generate 
SQLExceptions 


Error is encountered pod mu 
and Once exception found- 
an exception is thrown r 


| di Thrrow back to catch 
catch (block of code} 


图 3.1 Java 运行 时 环境 


3. 必要 的 存储 过 程 

如 果 要 使 用 通用 JDBC 驱动 程序 并 连接 到 OS/390 ,那么 需要 确保 在 主机 上 有 一 些 必要 
的 存储 过 程 , 这 些 存储 过 程 将 确保 跟踪 得 以 进行 : 

SQLCOLPRIVILEGES 

SQLCOLUMNS 

SQLFOREIGNKEYS 

SQLGETTYPEINFO 

SQLPRIMARYKEYS 

SQLPROCEDURECOLS 

SQLPROCEDURES 

SQLSPECIALCOLUMNS 

SQLSTATISTICS 

SQLTABLEPRIVILEGES 

SQLTABLES 

SQLUDTS 

SQLCAMESSAGE 


这 些 存储 过 程 是 版 本 6 的 PTF 附带 的 。 需 要 UQ72081 和 UQ72082。 对 于 版 本 7， 
PTF 号 被 定义 为 UQ72083。 如 果 需 要 关于 如 何 安装 这 些 PTF 的 具体 信息 ,请 参考 DB2 
Information Center for z/OS ,在 那里 可 以 获得 详细 的 信息 。 

4. JCC 跟踪 : 概述 

目前 ,JCC 驱动 程序 在 跟踪 和 诊断 问题 方面 的 功能 还 不 足以 深入 地 诊断 问题 。 目 前 的 
跟踪 集 还 非常 不 稳定 ,主要 是 用 于 初步 的 分 析 。 将 来 版 本 的 JCC 驱动 程序 将 使 跟踪 功能 更 
适合 于 问题 诊断 ,并 且 更 加 面向 问题 。 然 而 ,JCC 跟踪 中 还 是 有 几 个 关键 的 地 方 值得 在 后 面 
加 以 讨论 ,它们 有 助 于 缩小 问题 的 范围 。 
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JCC 跟踪 的 实现 有 两 种 不 同 的 方式 ,在 接 下 来 的 两 节 中 将 详细 讨论 这 两 种 方式 。 

如 果 用 户 曾 经 见 过 DRDA 格式 的 DB2 跟踪 ,那么 JCC 跟踪 看 上 去 会 非常 熟悉 。 从 
DRDA 跟踪 中 获取 缓冲 区 ,然后 将 它们 放 入 实际 的 JCC 跟踪 中 。 别 忘 了 ,JCC 使 用 DRDA 
来 与 服务 器 进行 通信 。 

5. 如 何 进 行 DB2 通用 JDBC 驱动 程序 跟踪 

在 跟踪 一 个 JCC 问题 时 ,可 以 采取 两 种 方法 。 根 据 环境 的 不 同 ,可 以 使 用 以 下 两 种 方 
法 之 一 : 
。 把 它 作 为 一 个 独立 的 JCC 应 用 程序 来 跟踪 。 

* 在 WebSphere "P RRA JCC 跟踪 点 。 

1) 把 JCC 作为 独立 应 用 程序 来 跟踪 

当 把 JCC 组 件 作为 独立 应 用 程序 来 跟踪 时 ,需要 考虑 与 DB2 通用 JDBC 驱动 程序 之 间 
存在 的 连接 类 型 。 

(1) DataSource 接口 

当 为 JCC 连接 使 用 数据 源 接口 时 ,有 两 种 方式 来 启用 跟踪 : 

DB2DataSource > setTraceLevel > default TRACE ALL 

— javax. sql. DataSource. setLogWriter > TRACE ALL only available 

对 于 任何 跟踪 选项 ,除了 TRACE ALL 属性 外 ,还 可 以 使 用 其 他 跟踪 参数 。 根 据 所 跟 
踪 内 容 的 不 同 , 可 以 让 JCC 跟踪 功能 只 跟踪 以 下 属性 : 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE NONE 

con. ibm. db2. jcc. DB2BaseDataSource. TRACE CONNECTION CALLS 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE STATEMENT CALLS 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE RESULT SET CALLS 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE DRIVER CONFIGURATION 

con. ibm. db2. jcc. DB2BaseDataSource. TRACE CONNECTS 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE DRDA FLOWS 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE RESULT SET META DATA 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE PARAMETER META DATA 

con. ibm. db2. jcc. DB2BaseDataSource. TRACE DIAGNOSTICS 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE SQLJ 

com. ibm. db2. jcc. DB2BaseDataSource. TRACE XA CALLS ( 仅 适 用 于 Universal Type 2 Connectivity 

for DB2 UDB for Linux,UNIX 和 Windows) 

con. ibm. db2. jcc. DB2BaseDataSource. TRACE ALL 

如 果 想 跟踪 不 止 一 个 特定 的 traceLevel 属性 ,那么 可 以 使 用 位 操作 符 (|) 来 分 隔 不 同 的 
属性 。 通 常 ,如 果 不 知道 想 跟踪 哪个 特定 的 组 件 ,那么 最 好 使 用 默认 属性 , 即 TRACE_ 
ALL。 实 际 上 ,在 大 多 数 情 况 下 ,只 需要 知道 这 么 多 。 但 是 如 果 需 要 更 详细 地 规定 跟踪 某 
些 JDBC 通用 驱动 程序 组 件 ,那么 可 以 通过 位 操作 符 来 做 到 这 一 点 。 

另外 提醒 一 点 ,如 果 想 跟踪 除了 某 个 组 件 之 外 的 所 有 组 件 , 还 可 以 使 用 另 一 个 位 操作 
符 。 这 个 位 操作 符 就 是 (一 ) 。 

(2) DriverManager 

进行 跟踪 的 第 二 种 方法 是 使 用 连接 的 DriverManager 接口 ,可 以 通过 以 下 两 种 方法 之 
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DriverManager. getConnection 
设置 info 参数 或 URL 参数 中 的 traceLevel 属性 。 
DriverManager. setLogWriter 


当 使 用 这 种 方法 打开 跟踪 时 ,可 以 指定 跟踪 目标 ,然后 打开 跟踪 。 下 面 是 关于 如 何 做 到 
这 一 点 的 一 个 好 例子 : 


清单 ”使 用 DriverManager. setLog Writer 的 示例 代码 清单 


//The traceLevel property is established through the URL syntax, 
//and driver tracing is directed to file "/temp/driverLog. txt" 
String databaseURL = 

"jdbc:db2://sysmvsl.stl.ibm.com:5021" + 

"/sample:traceFile = /temp/driverLog.txt; traceLevel- " + 

" (com. ibm. db2. jcc. DB2BaseDataSource. TRACE DRDA FLOWS " + 

"| con. ibm. db2. jcc. DB2BaseDataSource. TRACE CONNECTS); "; 


还 有 一 种 方法 也 可 以 进行 JCC 跟踪 ,这 种 方法 不 用 修改 应 用 程序 。 如 果 在 客户 机 上 创 
建 一 个 名 为 DB2JccConfiguration. properties 的 文本 文件 ,该 文件 中 只 有 一 行文 本 : 


db2. jcc. override. traceFile = c:\jcc.trc 


然后 将 该 文件 添加 到 CLASSPATH 中 ,那么 JCC 跟踪 将 被 自动 启用 。 在 不 能 更 改 任 
何 源 代码 或 JCC 驱动 程序 属性 的 时 候 ( 例 如 ,使 用 在 内 部 使 用 JCC 驱动 程序 的 第 三 方 产 
品 ), 这 种 方法 非常 有 用 。 

2) 在 WebSphere IRER PIRA JCC 跟踪 点 

如 果 在 WebSphere 环境 中 碰 到 一 个 DB2 通用 JDBC 问题 ,那么 可 以 在 WebSphere 跟 
踪 中 嵌入 JCC 跟踪 点 。 这 样 就 可 以 很 方便 地 知道 JCC 组 件 在 WebSphere 调用 中 所 扮演 的 
角色 ,从 而 可 以 清晰 地 了 解 应 用 程序 中 所 发 生 的 事情 。 

下 面 是 在 WebSphere 跟踪 中 设置 JCC 跟踪 点 的 步骤 : 

(D 在 WebSphere Application Server 中 为 JDBC 设置 跟踪 属性 。 


进入 Resources > JDBC Provider > Data Sources > hdditional Properties > Custom Properties. 
需要 设置 的 属性 是 : 

traceLevel( - 1 表示 完全 跟踪 TRACE ALL) 

(2) 打开 跟踪 。 


it A Troubleshooting > Logs and Trace > pick the server > Diagnostic Trace > Trace 

Specification: RRA = all = enabled: WAS. database = all = enabled 

注意 : 这 里 可 以 指定 两 个 跟踪 字符 串 , 之 间 用 “:” 隔 开 , 一 个 用 于 WebSphere 
Application Server 资源 适配器 ; 另 一 个 用 于 数据 库 (JDBC 驱动 程序 ) 。 

通过 使 traceFileName 属性 空白 ,就 足以 自动 在 WebSphere ERER rR ik À. JCC 跟踪 点 。 
可 以 动态 地 启用 和 禁用 这 种 跟踪 ,在 缩小 问题 范围 的 时 候 这 样 做 会 有 所 帮助 。 
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3.2.3 JDBC 通用 驱动 程序 错误 代码 


JCC 驱动 程序 只 能 发 出 少数 几 种 DB2 通用 驱动 程序 错误 代码 。 如 果 错 误 代码 是 通用 
驱动 程序 还 没有 定义 的 ,那么 它 将 回 显 一 个 一 99 999 错误 代码 。 表 3. 7 中 是 DB2 通用 
JDBC 驱动 程序 当前 可 用 错误 代码 的 一 个 参考 。 


表 3.7 错误 代码 
代码 原 
4200 在 XA 环境 中 ,一 个 处 在 全 局 事务 中 的 应 用 程序 发 出 一 个 无 效 的 提交 或 回 深 
4498 出 现 故障 转移 或 故障 恢复 ,事务 失败 
4499 导致 连接 断 开 的 严重 错误 
一 99 999 DB2 通用 JDBC 驱动 程序 发 出 没有 错误 代码 的 错误 


目前 由 一 99 999 这 个 通用 错误 代码 定义 的 错误 代码 大 约 有 2000 条 。 下 一 阶段 的 JCC 
产品 将 用 SQLSTATE 和 SQLCODE 来 定义 这 些 错 误 代码 。 

在 使 用 JCC 驱动 程序 时 ,无论 碰 到 何 种 类 型 的 问题 ,为 了 做 进一步 的 诊断 ,通常 的 做 法 
是 进行 一 个 JCC 跟踪 。 前 面 已 经 给 出 了 进行 JCC 跟踪 时 所 采取 的 步骤 。 现 在 来 剖析 一 个 
JCC 跟踪 ,看 看 如 何 通 过 分 析 跟 踪 和 找 出 错误 的 来 源 来 彻底 把 问题 弄 清楚 。 

现在 ,将 一 个 跟踪 分 成 几 个 部 分 ,看 看 哪些 部 分 在 需要 查看 该 诊断 工具 的 各 组 件 时 会 有 
用 。 在 跟踪 头 中 可 以 发 现 一 些 重要 信息 ,这 些 信 息 对 于 理解 环境 非常 有 用 。 下 面 的 编号 对 
应 图 3. 2 中 的 数字 。 

(1) 所 使 用 的 DB2 通用 JDBC 驱动 程序 版 本 

实际 驱动 程序 版 本 是 独立 于 修复 包 版 本 的 。 在 Java 应 用 程序 开发 支持 页 面 上 有 一 个 
详细 的 对 照 表 ,其 中 说 明了 每 个 DB2 UDB 修复 包 所 附带 的 JCC 驱动 程序 的 版 本 。 

了 解 所 使 用 的 JCC 驱动 程序 版 本 的 另 一 种 方法 是 在 命令 行 中 发 出 命令 db2jcc - 
version ,该 命令 将 显示 当前 使 用 的 驱动 程序 的 版 本 。 

(2) JDK 级 别 

表明 和 该 JCC 驱动 程序 一 起 使 用 的 Java 开发 工具 箱 的 版 本 。 尽 量 使 之 与 所 使 用 的 相 
应 修复 包 保 持 同 步 。 

跟踪 头 中 包含 的 其 他 重要 信息 有 : 

操作 系统 的 级 别 

路 径 信息 

获得 最 新 版 本 的 DB2 通用 JDBC 驱动 程序 的 最 好 方法 是 下 载 最 近 用 于 DB2 UDB for 
Linux, UNIX 和 Windows 的 修复 包 。 

之 所 以 要 为 JDBC 驱动 程序 和 相应 的 修复 包 使 用 不 同 的 版 本 控制 系统 ,是 为 了 允许 在 
所 有 DB2 平台 (包括 zSeries® ,iSeries™ 等 ) 上 发 布 同一 个 驱动 程序 。 这 个 驱动 程序 在 所 有 
DB2 平台 上 是 一 致 的 。 

现在 来 看 看 JCC 跟踪 的 主体 ,并 试 着 将 一 些 关 键 的 元 素 拼 接 起 来 。 

(3) 跟踪 标记 

通过 查看 JCC 跟踪 中 的 标记 ,总 可 以 确定 所 使 用 的 通用 驱动 程序 是 Type 4 风格 的 还 
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libimdb2)ficc] BEGIN TRACE_DRIVER_CONFIGURATION 
[ibm (452 jec] Driver: IBM DB2 JDBC Uriversal Driver Archite (5253 zm 
fib t2 ]Dec] Actual DLL interface of loaded DLL: None 


fib [ata ec] Target server beensing restrictions: { JOS: enabled; SQLDS: enabled, Ser 
f 

Usis/Windows: enabled; Cloudscape: enabl 

liben (de2)fcc] Range checking enabled: roe ea ee] Bug check level: Oxf 


fb )rde2 ec] harness] Invoking test case com ibm db2 jec test anson xxx SimpleQuery 
[Thaya msn] [Connection(503429] — getMelaDsts O — retumed 


D3EAD3D3C9C44)40 404040404040404 
4040E2ESE2D3CSF2 “ 
200040405155534c. 364C30210010003 GOQOSYSLVLDI.. «< 


esc ob 
[ibam dba) jce]n4] 0050 
全 ltd 人 0060 6 T 

fibm)ab2]jec]t4]0070 652065726F6D* " ; 
fibm][db)pez](M] 0080 3F666F6F206F7264 657220627920696E foo order by in Ea 
fibmfdb2)fjec)t4] 0090 744E756C6C61626C 6500000056D00100 tNullable..V.. +%%/%._.). 
fibm(db2]fjec]t4] 00A0 020050200C004421 13E2E3D3F4F3F4CI -P Di... £... STL454A 
fibmjfdb2]jcc)4] 00BO 4040404040404040 404040D5EAD3D3C9 @@Q@QQ2@@26@_ 
NULLI 


Gbm)[db2][jec]t4] OCO ^ C440404040404040  404)404040E2ESE2 ”GGGGGCGGCG6eGe- 
D SYs 

fbm)db2]jce)4] 00DO  D3CSF2FOF0404040 4040404040404053 .. GO OOOGOOOOs 
gLH200 


fibm(db2)fjec]ft4] ODEO 59534C564C303100 010008211400007F YSLVLOI...I.. .<< 
fibm)db2)fjec]ft4] 00F0 FF 


图 3.2 JCC 跟踪 


是 Type 2 风格 的 : 

Libm][db2 J[jcc][t4 ] 三 表明 所 使 用 的 是 type 4 版 本 的 驱动 程序 。 

[ibmj[db2][jcej[t2] = 表明 所 使 用 的 是 type 2 版 本 的 驱动 程序 。 

(4) DRDA 缓冲 区 

由 于 JCC 规范 是 建立 在 DRDA 协议 之 上 的 ,将 DRDA 缓冲 区 嵌入 在 JCC 跟踪 中 。 这 

些 缓冲 区 包含 诸如 PreparedStatement 对 象 或 ResultSet 对 象 之 类 的 项 。 如 果 熟 悉 DB2 JR 

踪 中 常见 的 DRDA 缓冲 区 ,那么 JCC 跟踪 中 的 DRDA 缓冲 区 的 感 观看 上 去 会 很 熟悉 。 如 
果 在 查看 DRDA 信息 时 有 些 迷 惑 , 那 么 可 以 抓 住 关 键 的 一 点 , 那 就 是 要 执行 的 SQL 语句 。 
这 条 语句 应 该 就 嵌入 在 缓冲 区 中 ,并 和 DB2 通用 驱动 程序 将 它 发 送 到 服务 器 进行 处 理 时 是 
一 样 的 。 

(5) 使 用 的 方法 

如 果 知 道 导 致 发 生 问题 的 Java 方法 ,或 者 想 在 跟踪 中 看 看 一 个 特定 的 方法 是 如 何 使 用 
的 ,那么 可 以 从 JCC 跟踪 中 找到 它 。 

如 果 知 道 一 个 特定 的 语句 或 方法 正在 导致 问题 ,那么 总 可 以 在 JCC 跟踪 中 搜索 它 , 然 
后 再 对 它 进 行 上 下 搜索 ,从 而 发 现任 何 值得 怀疑 的 行为 或 错误 消息 ,通过 它们 就 可 能 找到 能 
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指示 出 问题 所 在 的 线索 。 

如 果 对 错误 感到 没 把 握 , 那 么 可 以 从 DB2 UDB Technical Support 站 点 开始 着 手 。 

现在 来 看 一 个 有 问题 的 跟踪 的 例子 ,该 跟踪 显示 一 个 一 4499 错误 ,这 是 由 DB2 通用 
JDBC 驱动 程序 定义 的 一 个 错误 代码 。 

通常 , 当 碰 到 任何 与 通用 JDBC 驱动 程序 有 关 的 问题 时 ,都 将 以 某 种 类 型 的 异常 的 形式 
来 报告 这 个 问题 。 

从 图 3. 3 显示 的 跟踪 中 可 以 看 到 一 4499 这 个 返回 代码 。 异 常 中 还 显示 了 通信 和 错误 ,可 
以 看 到 ,在 这 种 特定 情况 下 ,这 就 是 要 返回 给 应 用 程序 的 内 容 。 

一 个 很 好 的 技巧 就 是 上 下 搜索 这 个 异常 ,掌握 在 实际 应 用 程序 中 所 发 生 的 情况 。 通 过 
搜索 发 现 这 是 否 是 与 驱动 程序 有 关 的 缺陷 ,如 果 是 ,那么 试 着 使 用 最 新 版 本 的 JCC 驱动 程 
序 , 在 最 新 版 本 中 这 个 问题 可 能 已 经 被 修复 了 。 


ibm][452]licc] BEGIN TRACE, DIAGNOSTICS 
[ibmj[db2][jee][SQLExeeption@68a936] java sql SQLException. 
libm][db2][jcc][SQLException@68a936] SQL stat 

[ibm ][db2)fjec][SQLEsception(3624936] Error co: 
[ibm ][db2)[jcc][SQLException624936] Messagi ation error has been detected. 
Communication protocol being used: Reply fillO. PI being used: IgutStresm seadO. 
Location whete the error was detected: Connection reset by peer. Communication function detecting the 
enor: * Protocol specific error codes(s) TCP/IP SOCKETS 

[ibm ][db2)fjcc][SQLExceptionQ684936] Stack trace follows 

com ibm db2 jcc.b DisconnectEsception: A communication error has been detected. Communication 
protocol being used: Reply. fillQ). Communication API being used: IpputStream.readO. Location where the 
error was detected: Connection reset by peer. Communication function detecting the error: *. Protocol 
specific error codes(s) TCP/IP SOCKETS 


at com ibm.db2.jcc.a.bb.b(bb java:165) 
at com ibm.db2 jec.a.p.b(p.java:32) 

at com ibm db2 jcc.x b Ib(b java.2196) 
at com ibm db2 jcc b o n(o java: 1161) 
at com ibm.db2 jcc b.o h(o Java:1073) 
at com ibm db2 jcc b.o (o java: 1082) 


at ifsvrComDBConnectltems isGetSENDQUE_FT P(ifsyrComDBConnectltems java:286) 
at ifsviFtpDisk0.sqlExecuteCtl(fsvrFtpDisk0O java433) 
at ifsviFtpDisk00. .runGfsvrFtpDisk00 java 215) 
at java lang Thread run(Thread java:479) 
ibm][áb2)fjcc] END TRACE. DIAGNOSTICS 


图 3.3 跟踪 例子 


Come 
Ne m 


集成 数据 管理 


现今 企业 所 面临 的 难题 是 管理 互联 网 和 电子 商务 所 造成 的 数据 量 和 多 样 性 的 爆炸 。 原 
本 存在 于 DBMS、 内 容 管理 系统 、 中 间 层 高 速 缓 存 和 数据 仓库 之 间 的 界限 正 日 益 变 得 模糊 ， 
而 迫切 需要 提供 所 有 这 些 服务 的 统一 视图 的 平台 。 这 里 提出 了 一 种 平台 , 它 扩展 了 最 新 的 
联邦 数据 库 体 系 结构 ,支持 关系 和 XML 作为 主要 数据 模型 ,并 紧密 地 联系 了 内 容 管理 服 
务工 作 流 、 消 息 传递 .分析 和 其 他 企业 应 用 程序 服务 。 本 章 将 对 集成 数据 管理 进行 介绍 。 


4.1 集成 数据 管理 简介 


使 用 集成 的 模块 化 的 数据 管理 环境 ,来 实现 一 个 跨 整个 数据 管理 生命 周期 设计 、 开 发 、 
部 署 、 运 营 、 优 化 和 治理 数据 \ 数 据 库 和 数据 驱动 的 应 用 程序 。 这 个 过 程 称 为 集成 数据 管理 。 
通过 关注 整个 生命 周期 和 支持 不 同 角色 之 间 的 协作 ,能 够 提高 组 织 的 生产 力 、 增 强 敏捷 性 、 
提高 效率 ,同时 也 改进 服务 质量 、 减 少 拥有 成 本 ,从 而 实现 良好 地 治理 各 种 数据 、 数 据 库 和 数 
据 驱动 的 应 用 程序 。 


4.2 数据 建 模 和 设计 


数据 建 模 是 一 种 用 于 定义 和 分 析 数 据 的 要 求 和 所 需 相应 支持 的 信息 系统 的 过 程 。 
此 ,在 数据 建 模 的 过 程 中 ,所 涉及 的 专业 数据 建 模 工作 ,与 企业 的 利益 和 用 户 的 信息 系统 密 
切 相关 。 

从 需求 到 实际 的 数据 库 , 有 三 种 不 同 的 类 型 。 用 于 信息 系统 的 数据 模型 作为 一 个 概念 
数据 模型 ,本质 上 是 一 组 记录 数据 要 求 的 最 初 的 规范 技术 。 数 据 首先 用 于 讨论 适合 企业 的 
最 初 要 求 ,然后 被 转变 为 一 个 逻辑 数据 模型 ,该 模型 可 以 在 数据 库 中 的 数据 结构 概念 模型 中 
实现 。 一 个 概念 数据 模型 的 实现 可 能 需要 多 个 逻辑 数据 模型 。 数 据 建 模 中 的 最 后 一 步 是 确 
定 从 逻辑 数据 模型 到 物理 数据 模型 的 过 程 中 ,对 数据 、 访 问 、 性 能 和 存储 的 具体 要 求 。 数 据 
建 模 定义 的 不 只 是 数据 元 素 , 也 包括 它们 的 结构 和 它们 之 间 的 关系 。 
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4.2.1 数据 仓库 设计 和 数据 建 模 


业务 环境 是 在 快速 变化 的 ,而 业务 数据 的 类 型 也 是 如 此 。 一 个 成 功 的 数据 仓库 解决 方 
案 的 基础 就 是 灵活 的 设计 ,这 种 设计 可 以 适应 不 断 变化 的 业务 数据 。 数 据 仓库 的 架构 和 仓 
库 数 据 的 建 模 是 仓库 设计 中 的 核心 过 程 。 

(1) 数据 仓库 的 架构 

当 使 用 数据 模型 捕获 业务 需求 时 ,用 户 就 已 经 完成 了 数据 仓库 设计 中 的 部 分 工作 。 然 
而 ,正式 的 数据 仓库 设计 应 该 从 数据 仓库 的 架构 开始 。 仓 库 架 构 是 基于 一 些 因素 所 做 的 关 
键 决策 ,这 些 因素 包括 当前 基础 设施 、 业 务 环境 、 期 望 的 管理 和 控制 结构 、 实 现 工作 的 承诺 和 
范围 .企业 采用 的 技术 环境 的 功能 以 及 可 用 的 资源 等 。 

(2) 架构 选择 

仓库 架构 将 决定 数据 仓库 和 数据 集 市 本 身 的 位 置 ,以 及 控制 所 驻 留 的 位 置 ,或 者 反之 。 
例如 ,数据 可 以 驻 留 在 集中 进行 管理 的 中 心 位 置 中 ,数据 也 可 以 驻 留 在 集中 或 独立 管理 的 分 
布 式 的 本 地 和 (或 ) 远 程 位 置 中 。 

有 以 下 一 些 架构 选择 : 

。 业务 范围 的 数据 仓库 

。 独立 的 数据 集 市 

。 互 连 的 数据 集 市 

这 些 架构 选择 也 可 以 组 合 使 用 。 例 如 ,数据 仓库 架构 可 以 在 物理 上 分 布 或 集中 管理 。 

(3) 业务 范围 的 数据 仓库 架构 

业务 范围 的 数据 仓库 就 是 支持 整个 或 一 大 部 分 业务 的 数据 仓库 ,该 业务 需要 更 加 完全 
集成 的 数据 仓库 , 跨 部 门 和 业务 线 (line of business) 具 有 较 高 的 数据 访问 和 使 用 率 , 即 基于 
整个 业务 需求 设计 和 构造 仓库 。 可 以 将 之 视 作 可 跨 整 个 企业 使 用 的 决策 支持 数据 的 公共 存 
fi VE ,或 其 中 的 一 个 大 型 子 集 。 这 里 所 使 用 的 术语 “业务 范围 (business-wide) ”反映 的 是 数 
据 访 问 和 使 用 的 范围 ,而 非 物理 结构 。 在 整个 企业 中 ,业务 范围 的 数据 仓库 在 物理 上 可 以 是 
集中 式 的 ,也 可 以 是 分 布 式 的 。 

CD 独立 的 数据 集 市 架构 

独立 的 数据 集 市 架构 暗 指 单独 的 数据 集 市 ,这 些 数据 集 市 是 由 特定 的 工作 组 ,部门 或 业 
务 线 进行 控制 的 ,完全 是 为 满足 其 需求 而 构建 的 。 实 际 上 ,它们 甚至 与 其 他 工作 组 ,部门 或 
业务 线 中 的 数据 集 市 没有 任何 连通 性 ,如 图 4. 1 所 示 。 

(5) 互 连 的 数据 集 市 架构 

互 连 的 数据 集 市 架构 基本 上 是 分 布 式 的 实现 。 虽 然 不 同 的 数据 集 市 是 在 特定 的 工作 
组 、 部 门 或 生产 线 中 实现 的 ,但 它们 可 以 是 集成 、 互 连 的 ,以 提供 更 加 全 局 的 业务 范围 的 数据 
视图 。 实 际 上 ,在 最 高 的 集成 层次 上 ,它们 可 以 成 为 业务 范围 的 数据 仓库 。 这 意味 着 一 个 部 
门 中 的 终端 用 户 可 以 访问 和 使 用 另 一 部 门 数据 集 市 中 的 数据 。 

(6) 选择 架构 

如 果 客 户 的 业务 和 数据 源 是 相对 集中 的 ,那么 业务 范围 的 集中 式 数 据 仓库 架构 就 是 最 
明智 的 选择 。 这 实际 上 对 于 中 间 市 场 的 公司 而 言 是 很 普遍 的 情况 。 否 则 ,对 于 在 地 理 上 广 
泛 分 布 的 业务 而 言 , 互 连 的 数据 集 市 和 业务 范围 的 分 布 式 数据 仓库 就 是 更 加 实用 的 选择 。 
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4.1 数据 仓库 架构 选择 


独立 的 数据 集 市 架构 不 是 一 种 好 方法 ,因为 它 违背 了 数据 仓库 的 关键 概念 : 数据 集成 。 

(7) 数据 仓库 的 实现 方法 

实现 方法 的 选择 受 这 些 因素 的 影响 : 当前 的 IT 基础 设施 .可 用 的 资源 .所 选择 的 架构 、 
实现 的 范围 .对 于 跨 企业 进行 的 更 大 业务 范围 的 数据 访问 的 需求 投资 回报 率 (return-on- 
investment) 需 求 以 及 实现 的 速度 。 实 现 方法 的 选择 是 数据 仓库 设计 中 的 重要 部 分 ; 该 决策 
需要 在 数据 仓库 项 目的 早期 阶段 做 出 。 

(8) 自 顶 向 下 的 实现 

自 顶 向 下 的 方法 就 是 在 单个 项 目 阶 段 中 实现 数据 仓库 。 自 项 向 下 的 实现 需要 在 项 目 开 
始 时 完成 更 多 计划 和 设计 工作 。 这 就 需要 涉及 参与 数据 仓库 实现 的 每 个 工作 组 .部门 或 业 
务 线 中 的 人 员 。 要 使 用 的 数据 源 .安全 性 .数据 结构 ,数据 质量 、 数 据 标准 和 整个 数据 模型 的 
有 关 决 策 一 般 需 要 在 真正 实现 开始 之 前 就 完成 。 

(9) 自 底 向 上 的 实现 

自 底 向 上 的 实现 包含 数据 仓库 的 计划 和 设计 ,无 须 等 待 安置 好 更 大 业务 范围 的 数据 仓 
库 设 计 。 这 并 不 意味 着 不 会 开发 更 大 业务 范围 的 数据 仓库 设计 ; 随 着 初始 数据 仓库 实现 的 
扩展 ,将 逐渐 增加 对 它 的 构建 。 现 在 ,该 方法 得 到 了 比 自 顶 向 下 方法 更 广泛 的 认可 ,因为 数 
据 仓 库 的 直接 结果 可 以 实现 ,并 可 以 用 作 扩 展 更 大 业务 范围 实现 的 证 明 。 

(10) 选择 实现 

每 种 实现 方法 都 有 利弊 。 在 许多 情况 下 ,最 好 的 方法 可 能 是 某 两 种 的 组 合 。 该 方法 的 
关键 之 一 就 是 确定 业务 范围 的 架构 需要 用 于 支持 集成 的 计划 和 设计 的 程度 ,因为 数据 仓库 
是 用 自 底 向 上 的 方法 进行 构建 。 

在 使 用 自 底 向 上 或 阶段 性 数据 仓库 项 目 模型 来 构建 业务 范围 架构 中 的 一 系列 数据 集 市 
时 ,用户 可 以 一 个 接 一 个 地 集成 不 同业 务 主题 领域 中 的 数据 集 市 ,从 而 形成 设计 良好 的 业务 
数据 仓库 。 这 样 的 方法 可 以 极 好 地 适用 于 业务 。 每 个 数据 集 市 都 可 以 处 理 可 识别 的 业务 问 
题 或 主题 领域 ,从 而 可 以 计算 ROI。 构 建 团队 可 以 测试 并 调整 产品 ,而 该 方法 也 为 构建 团队 
提供 了 宝贵 的 学 习 曲 线 。 

对 于 中 间 市 场 的 公司 ,有 一 些 额 外 的 理由 要 采用 自 底 向 上 的 方法 : 
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。 在 中 间 市 场 的 业务 及 其 业务 数据 结构 中 ,存在 比 企业 业务 数据 中 更 多 的 易 变 性 。 
* 较 小 的 公司 通常 存在 有 限 的 项 目 预 算 。 
。 中 间 市 场 的 公司 需要 快速 解决 方案 以 降低 其 业务 难度 。 
。 该 类 项 目 所 需要 的 人 员 必 须 具 有 对 业务 的 广泛 理解 以 及 特定 业务 领域 的 详细 知识 。 
找到 这 样 的 人 是 很 困难 的 ,但 即使 可 以 ,使 用 他 们 的 时 间 来 进行 数据 建 模 也 比 让 他 
们 尽 普通 业务 职责 更 加 困难 。 
(11) 数据 仓库 基础 设施 
做 出 具有 关于 高 级 数据 仓库 架构 的 一 些 决 策 之 后 ,用 户 就 可 以 开始 考虑 数据 仓库 应 该 
具有 什么 组 件 了 。 
数据 仓库 应 具有 图 4. 2 中 所 描述 的 商业 智能 基础 设施 中 的 所 有 组 件 。 这 里 将 关注 数据 
仓库 的 构造 ,其 中 涉及 了 除 信息 分 析 之 外 的 所 有 这 些 组 件 。 
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图 4.2 商业 智能 基础 设施 组 件 的 高 级 视图 


这 些 商 业 智 能 组 件 可 以 定义 为 : 
。 数据 源 : 当前 可 用 的 业务 数据 源 和 外 部 数据 源 以 及 将 来 可 能 存在 的 数据 源 的 清晰 
定义 。 
数据 获取 : 用 于 获得 清洗 .转换 和 集成 数据 的 ETL( 提 取 、 转 换 和 装 和 人 ) 过 程 。 
。 业务 数据 仓库 : 仓库 数据 存储 库 的 数据 库 。 
。 数据 传播 : 用 于 为 数据 集 市 聚集 和 增强 数据 的 ETL 过 程 。 
数据 集 市 : 是 友好 的 数据 结构 中 的 数据 仓库 的 子 集 。 
。 信息 分 析 : 本 解决 方案 中 未 涉及 。 
元 数据 管理 : 业务 需求 .数据 模型 .ETL 过 程 设 计 、 用 户 手 册 ,等 等 。 

。 系统 管理 : 数据 管理 ,数据 仓库 安全 性 、 系 统 和 数据 库 的 备份 和 恢复 ,等 等 。 

(12) 数据 仓库 的 建 模 

数据 只 是 所 有 业务 活动 、 资 源 以 及 企业 结果 的 记录 。 数 据 模 型 是 对 那些 数据 组 织 良 好 
的 抽象 ,因此 数据 模型 成 为 理解 和 管理 企业 业务 的 最 佳 方法 是 极其 自然 的 。 数 据 模型 起 到 
了 指导 或 计划 数据 仓库 的 实现 的 作用 。 在 真正 实现 开始 之 前 ,联合 每 个 业务 领域 的 数据 模 
型 可 以 帮助 确保 其 结果 是 有 效 的 数据 仓库 ,并 且 可 以 帮助 减少 实现 的 成 本 。 

目标 仓库 数据 的 建 模 是 将 需求 转换 成 图 画 以 及 支持 表示 那些 需求 的 元 数据 的 过 程 。 出 
于 易 读 性 目的 ,这 里 将 关于 需求 和 建 模 的 讨论 相 分 离 ,但 实际 上 这 些 步 又 通常 是 重 益 的。 一 
且 在 文档 中 记录 一 些 初始 需求 ,初始 模型 就 开始 成 型 。 随 着 需求 变 得 更 加 完整 ,模型 也 会 
如 此 。 
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型 是 数据 仓库 元 数据 的 核心 之 一 。 为 终端 用 户 提供 的 简单 性 以 及 历史 数据 的 集成 和 联合 是 
建 模 方法 应 该 帮助 提供 的 关键 原则 。 

(13) 仓库 数据 的 建 模 与 操作 数据 库 的 建 模 

在 建 模 的 过 程 中 ,请 记 住 下 列 问 题 : 


数据 仓库 应 该 是 面向 终端 用 户 的 。 在 数据 库 操作 中 ,用 户 不 直接 与 数据 库 进行 交 
互 。 他 们 使 用 应 用 程序 ,这 些 应 用 程序 具有 预先 定义 的 或 固定 的 查询 。 数 据 仓 库 的 
数据 库 ,特别 是 数据 集 市 ,与 终端 用 户 非常 接近 , 它 通常 不 具有 固定 的 查询 。 因 此 ， 
它 必须 更 易于 理解 。 

数据 仓库 应 该 是 为 数据 分 析 而 设计 的 。 终 端 用 户 几乎 直接 处 理 数 据 , 而 且 没 有 固定 
的 工作 流 。 终 端 用 户 对 在 仓库 中 记录 数据 不 感 兴趣 ,但 他 们 需要 从 中 获得 信息 。 他 
们 向 仓库 提出 问题 ,通过 所 提取 的 信息 测试 并 验证 假设 ,重新 构造 事件 链 , 分 析 那 些 
事件 以 检测 可 能 的 模式 或 季节 性 的 趋势 ,以 及 为 将 来 做 出 推断 和 设计 。 

终端 用 户 的 需求 可 能 是 模糊 或 不 完整 的 。 这 些 不 完整 的 需求 需要 灵活 的 建 模 过 程 
和 适合 于 进化 开发 的 技术 。 灵 活 的 进化 软件 开发 的 风险 是 不 连贯 和 不 一 致 的 终端 
结果 。 在 开发 数据 模型 时 ,肯定 需要 注意 这 些 问 题 。 

数据 仓库 是 集成 的 数据 库 集合 ,而 非 单个 数据 库 。 应 将 它 构想 为 单个 信息 源 , 用 于 
整个 企业 中 所 有 的 决策 支持 处 理 和 所 有 的 信息 应 用 程序 。 数 据 仓库 是 一 个 “有 机 ” 
物 ,如 果 在 开始 时 还 不 够 大 ,就 还 会 趋 于 变 大 。 

数据 仓库 包含 属于 不 同 信息 主 题 领 域 的 数据 。 这 些 主题 领域 可 以 是 将 数据 仓库 修 
辑 划 分 成 几 个 不 同 (概念 的 ,甚至 是 物理 的 ) 数 据 库 的 基础 。 数 据 仓库 还 可 以 包含 不 
同类 别 的 数据 。 

数据 仓库 通常 包含 历史 数据 ,而 不 是 日 常 操作 数据 的 快照 (snapshot)。 必 要 的 遗留 
数据 库 可 能 不 可 用 ,或 者 可 能 无 法 在 足够 细 的 层次 上 捕获 ,除非 花费 金钱 并 付出 努 
力 来 改变 遗留 输入 环境 。 因 此 ,数据 仓库 启用 项 目 通常 涉及 业务 过 程 和 源 应 用 程序 
的 重组 (reengineering) 。 


(14) 两 层 数 据 仓库 设计 

两 层 的 仓库 建 模 方法 最 适合 于 自 底 向 上 的 实现 ,如 图 4.3 所 示 。 

数据 存储 库 层 ,或 后 端 层 包含 了 所 有 的 人 工 模型 组 件 和 完整 的 模型 结构 ,它们 处 理 所 有 
必要 数据 源 中 的 集成 业务 数据 。 数 据 存储 库 层 具有 两 个 数据 模块 : 数据 登台 (staging) 和 数 
据 存储 库 。 数 据 分 级 模块 存储 所 有 数据 源 的 初始 数据 和 临时 数据 ,以 用 于 ETL 处 理 。 数 据 
存储 库存 储 所 有 的 集成 业务 数据 , 它 是 数据 获取 ETL 过 程 的 最 终 目标 。 

数据 集 市 层 包 含 所 有 的 数据 集 市 ,这些 数 据 集 市 是 数据 存储 库 模 块 的 子 集 , 以 便 特 定 的 
终端 用 户 组 在 其 数据 分 析 活动 中 使 用 起 来 足够 简单 。 

因为 数据 仓库 和 数据 集 市 在 许多 情形 中 是 可 以 交换 的 概念 ,所 以 有 必要 基于 两 层 的 仓 
库 模 型 指定 它们 的 定义 。 在 该 模型 中 ,业务 数据 仓库 是 数据 存储 库 数据 库 ( 模 块 ) 的 集合 ,而 
数据 集 市 则 是 数据 集 市 层 中 的 数据 库 。 数 据 集 市 中 的 业务 数据 只 能 来 自 业 务 数 据 仓库 。 

两 层 数据 仓库 设计 的 好 处 包括 : 


灵活 且 易 于 维护 : 可 以 随时 根据 用 户 的 报表 需求 修改 数据 集 市 的 数据 结构 。 但 是 ， 
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图 4.3 两 层 仓库 建 模 


它 不 影响 数据 存储 库 中 数据 库 的 数据 结构 。 
易于 伸缩 和 集成 : 关系 类 型 的 业务 数据 存储 库 数 据 库 比 数据 集 市 中 非 正 规 
(denormalized) 和 汇总 性 (summarized) 的 数据 库 更 易于 伸缩 和 集成 。 
。 用 户 友 好 : 将 数据 集 市 和 数据 存储 库 分 离 使 得 数据 集 市 的 设计 可 以 完全 由 终端 用 
户 驱 动 , 因 为 数据 建 模 师 不 需要 过 多 考虑 数据 集成 和 模式 可 伸缩 性 问题 。 
更 好 的 安全 设计 : 两 层 的 方法 将 数据 存储 和 数据 访问 管理 相 分 离 。 终 端 用 户 只 能 
访问 授权 给 他 们 的 数据 集 市 ,而 非 所 有 的 数据 仓库 数据 。 
更 好 的 数据 管理 设计 : 数据 仓库 是 为 存储 集成 的 业务 范围 的 历史 数据 而 设计 的 。 
但 是 ,数据 仓库 中 的 许多 数据 集 市 都 不 一 定 需要 那么 多 的 历史 数据 。 两 层 设计 是 存 
储 历史 数据 的 好 方法 。 
(15) 仓库 数据 建 模 层 
数据 建 模 有 三 层 : 概念 .逻辑 和 物理 。 在 数据 仓库 的 设计 中 ,数据 建 模 的 每 一 层 都 有 自 
己 的 目的 。 
。 概念 : 高 级 数据 模型 是 所 有 业务 主题 领域 以 及 业务 的 公共 数据 元 素 的 一 致 性 定义 ， 
从 高 级 的 业务 视图 到 通用 的 逻辑 数据 设计 。 用 户 可 以 从 中 派生 出 通用 的 范围 ,并 获 
得 对 业务 需求 的 理解 。 这 个 概念 数据 模型 是 当前 和 将 来 数据 仓库 开发 阶段 的 基础 。 
。 PH: 逻辑 数据 模型 包含 关于 业务 主题 领域 的 更 多 详细 信息 。 它 捕获 目标 业务 主 
题 领域 中 的 详细 业务 需求 。 风 辑 数据 模型 是 当前 项 目的 物理 数据 建 模 的 基础 。 
从 这 一 阶段 开始 ,该 解决 方案 就 适用 自 底 向 上 的 方法 了 ,这 意味 着 这 个 多 辑 数据 模型 中 
仅仅 将 最 重要 和 紧迫 的 业务 主题 领域 锁定 为 目标 。 
逻辑 数据 模型 的 功能 包括 : 
对 于 所 有 实体 及 其 之 间 的 关系 的 规范 。 
对 于 每 个 实体 的 属性 的 规范 。 
对 于 所 有 主键 和 外 键 的 规范 。 
规范 化 (Normalization) 和 聚集 。 
对 于 多 维 数据 结构 的 规范 。 
。 物理: 物理 数据 建 模 应 用 物理 约束 ,如 空间 、 性 能 以 及 数据 的 物理 分 布 。 物 理 数 据 


* 


* * + + 
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模型 是 与 数据 库 系统 以 及 用 户 将 使 用 的 数据 仓库 工具 紧密 相关 的 。 该 阶段 的 目的 
是 设计 真正 的 物理 实现 。 

将 逻辑 建 模 与 物理 建 模 清 晰 分 离 是 特别 重要 的 。 良 好 的 逮 辑 建 模 实 践 关 注 问 题 域 的 本 
质 。 逮 辑 建 模 解 决 “什么 ”之 类 的 问题 。 物 理 建 模 为 模型 解决 "如何 ? 之 类 的 问题 ,这 表示 给 
定 的 计算 环境 中 实现 的 真实 性 。 因 为 业务 计算 环境 随时 间 变 化 ,所 以 好 辑 和 物理 数据 建 模 
的 分 离 将 帮助 稳定 一 个 阶段 到 另 一 阶段 的 逻辑 模型 。 

一 旦 实现 了 数据 仓库 , 且 客户 开始 使 用 它 ,他们 就 常常 会 生成 新 的 请 求 和 需求 。 这 将 启 
动 男 一 开发 周期 ,继续 数据 仓库 构建 的 迭代 和 进化 过 程 。 正 如 读 者 可 以 看 到 的 ,逻辑 数据 模 
型 是 数据 仓库 的 活动 部 分 ,在 数据 仓库 的 整个 生命 周期 中 使 用 和 维护 。 数 据 仓 库 的 建 模 过 


程 确实 是 无 止境 的 ,如 图 4.4 所 示 。 
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图 4.4 数据 仓库 逻辑 数据 模型 的 生命 周期 


(16) 存储 库 数据 库 建 模 

仓库 数据 存储 库 数 据 库存 储 来 自 所 有 业务 数据 源 的 所 有 清洁 的 (cleaned) 集 成 业务 数 
据 , 它 是 数据 仓库 中 数据 集成 和 转换 的 终点 。 虽 然 概念 数据 模型 是 根据 业务 需求 设计 的 ,但 
是 数据 存储 库 迎 辑 数据 模型 是 基于 业务 需求 和 可 用 业务 数据 源 的 分 析 而 设计 的 。 它 是 用 于 
验证 现 有 业务 数据 是 否 支持 数据 仓库 项 目 中 业务 需求 的 自然 检查 点 。 

存储 库 数据 库 基 本 上 仍然 是 正规 的 (normalized) 关 系数 据 库 。 因 为 它们 是 源 驱动 的 ， 
所 以 源 数据 模型 可 以 用 于 协助 仓库 数据 存储 库 模型 的 完全 开发 过 程 。 用 户 可 能 需要 通过 使 
用 逆向 工程 (reverse engineering) 技 术 构 造 源 数 据 模型 ,从 而 从 现 有 的 源 数据 库 中 开发 实体 
和 关系 (Entity and Relation,ER) 模 型 。 用 户 可 能 需要 首先 将 几 个 这 样 的 模型 集成 到 一 个 
全 局 模型 中 ,以 逻辑 集成 的 方式 表示 源 。 

在 数据 转换 过 程 中 ,清洗 并 清理 了 数据 仓库 中 的 数据 。 它 至 少 应 该 与 源 操作 系统 中 的 
数据 一 样 好 。 在 ETL 过 程 中 ,即时 参照 完整 性 和 检查 约束 极其 有 助 于 检测 数据 问题 ,但 在 
最 终 的 数据 仓库 表 中 实现 它们 也 不 会 高 效 。 

数据 仓库 的 一 个 重要 特点 就 是 它 包含 历史 数据 。 根 据 更 新 频率 而 言 , 有 两 种 历史 数据 ， 
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慢 更 新 的 和 快 更 新 的 历史 数据 。 对 于 慢 更 新 的 历史 数据 ,更 新 是 使 用 具有 有 效 状态 和 时 间 
框架 (time-frame) 数 据 的 历史 子 表 进 行 处 理 的 。 

事务 和 W eb 遍历 数据 是 快 更 新 数据 的 典型 例子 ; 它们 通常 具有 较 大 的 新 旧 数 据 量 。 
存储 快 更 新 历史 数据 最 重要 的 设计 问题 就 是 性 能 。 例 如 ,有 从 1999 年 开始 的 大 量 事务 数 
据 , 但 是 正如 业务 需求 所 显示 的 ,只 有 最 近 3 年 的 事务 数据 才 被 频繁 访问 以 制作 报表 。 
图 4. 5 是 一 个 高 级 的 事务 表 的 逻辑 和 物理 分 区 设计 。 
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图 4.5 事务 表 的 逻辑 和 物理 分 区 
(17) 数据 集 市 的 数据 建 模 
因为 仓库 终端 用 户 直接 与 数据 集 市 进行 交互 ,所 以 数据 集 市 的 建 模 是 捕获 终端 用 户 业 

务 需 求 的 最 有 效 工具 之 一 。 数 据 集 市 的 建 模 过 程 取决 于 许多 因素 。 下 面 描述 了 三 个 最 重要 


。 数据 集 市 的 建 模 是 终端 用 户 驱 动 的。 终端 用 户 必须 参与 数据 集 市 的 建 模 过 程 ,因为 
他 们 显然 是 要 使 用 该 数据 集 市 的 人 。 因 为 应 该 期 望 终 端 用 户 完全 不 熟悉 复杂 的 数 
据 模型 ,所 以 应 该 将 建 模 技术 和 建 模 过 程 作为 整体 进行 组 织 , 以 便 使 复杂 性 对 终端 


用 户 透明 。 


因为 它们 通常 由 终端 用 户 直接 使 用 , 且 易 于 理解 。 


数据 集 市 的 建 模 是 由 业务 需求 驱动 的 。 数 据 集 市 模型 对 于 捕获 业务 需求 十 分 有 用 ， 


数据 集 市 的 建 模 极 大 地 受到 了 数据 分 析 技 术 的 影响 。 数 据 分 析 技 术 可 以 影响 所 选 


择 的 数据 模型 的 类 型 及 其 内 容 。 目 前 ,有 几 种 常用 的 数据 分 析 技术 : 查询 和 报表 制 

作 、 多 维 分 析 以 及 数据 挖掘 。 

如 果 仅 仅 为 提供 查询 和 报表 制作 功能 .那么 带 有 正规 (Cnormalized) 2X 3E 1E 34. 
(Cdenormalized) 数 据 结构 的 ER 模型 就 是 最 合适 的 。 维 度数 据 模型 也 可 能 是 较 好 的 选择 , 因 
为 它 是 用 户 友好 的 ,并 具有 更 好 的 性 能 。 如 果 其 目标 是 执行 多 维 数据 分 析 ,那么 维度 数据 模 
型 就 是 唯一 的 选择 。 然 而 ,数据 挖掘 通常 在 可 用 的 最 低 细 节 级 (level of detail) 工作 得 最 好 。 
因此 ,如 果 数 据 仓库 是 用 于 数据 挖掘 的 ,就 应 该 在 模型 中 包含 较 低 细节 级 (level of detail) 的 


数据 。 


因为 这 里 没有 包括 ER 建 模 ,所 以 本 小 节 将 讨论 维度 数据 建 模 , 这 是 数据 集 市 设计 中 最 


重要 的 数据 建 模 方法 。 
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(18) 星 型 和 雪花 型 模型 

有 两 种 基本 的 数据 模型 是 可 以 在 维度 建 模 中 使 用 的 : 

。 星 型 模式 (或 模型 ) 

星 型 模式 已 经 成 为 一 个 公共 术语 ,用 于 表示 维度 模型 。 数 据 库 设计 师长 期 使 用 术语 “ 星 
型 模式 ”来 描述 维度 模型 ,因为 结果 结构 看 上 去 像 一 颗 星 星 。 一 些 业 务 用 户 不 习惯 术语 “ 模 
式 ”, 所 以 他 们 接受 听 起 来 更 加 简单 的 术语 “ 星 型 模型 "*。 术 语 “ 星 型 模型 "和 “ 星 型 模式 ”是 可 
以 相互 交换 的 。 

星 型 模型 是 维度 模型 的 基本 结构 。 它 通常 有 一 个 大 型 的 中 心 表 ( 称 作 事 实 表 ) 和 一 组 小 
型 表 ( 称 作 维度 表 ) ,维度 表 以 放射 模式 围绕 事实 表 , 如 图 4. 6 所 示 。 


Product ID 
Name 
Branch ID Interest 
Name Min balance 
Zipcode Contract. period 
City HouseHold ID 
bn Num people 
County Branch ID. Num child 
Time ID | uem] House income 
Product ID City 
Satae 
Time ID HouseHold ID. 
Trans Type ID. 
Hour 
Tans amount 
Day | mem] 
Month 
Xem Trans Type ID 
name 
Parent table 一 Referenee Child table 


图 4.6 星 型 模式 结构 示例 


传统 的 ER 模型 具有 均匀 且 平 衡 的 实体 样式 和 实体 之 间 的 复杂 关系 ,而 星 型 模型 却 是 
完全 不 对 称 的 。 维 度 模 型 中 的 事实 表 与 其 他 所 有 维度 表 之 间 存 在 单一 连接 。 

维度 建 模 通常 在 收集 了 业务 需求 之 后 首先 指定 事实 和 维度 。 初 始 的 维度 模型 在 外 表 上 
通常 像 星 星 一 样 ,一 个 事实 位 于 中 心 , 一 个 级 别 上 的 多 个 维度 则 围绕 在 周围 。 雪 花 型 模型 是 
一 个 或 多 个 维度 的 分 解 结果 ,它们 自己 有 时 具有 层次 结构 。 用 户 可 以 将 一 个 维度 表 中 成 员 
之 间 多 对 一 的 关系 定义 为 一 个 单独 的 维度 表 , 从 而 形成 层次 结构 。 

分 解 的 雪花 型 结构 很 好 地 展示 了 维度 的 层次 结构 。 雪 花 型 模型 易于 数据 建 模 师 的 理解 
以 及 数据 库 设计 师 用 于 维度 的 分 析 。 然 而 ,雪花 型 的 结构 看 起 来 更 复杂 ,并 且 可 能 趋 于 使 业 
务 用 户 用 起 来 感到 不 如 更 简单 的 星 型 模型 舒服 。 开 发 人 员 也 可 以 选择 雪花 型 ,因为 它 通常 
节省 了 数据 存储 空间 。 考 虑 一 个 银行 应 用 程序 ,其 中 针对 一 个 维度 有 一 个 极其 大 型 的 账户 
表 。 用 户 可 以 选择 通过 不 存储 极其 频繁 重复 的 文本 字段 ,而 是 将 其 一 次 性 放置 在 一 个 子 维 
度 表 中 ,节省 该 大 小 的 表 中 的 大 量 空间 。 


第 4 章 “集成 数据 管理 中 85 


虽然 雪花 型 模型 不 节省 空间 ,但 与 事实 表 相 比 通 常 是 不 重要 的 。 大 多 数 数 据 库 设计 师 
都 不 将 节省 空间 作为 选择 建 模 技术 的 主要 决策 标准 来 考虑 。 
(19) 维度 和 测度 
用 户 通 常 需要 评估 或 分 析 企 业 业 务 的 某 些 方面 。 所 收集 的 需求 必须 表示 该 分 析 的 两 个 
关键 元 素 : 所 分 析 的 内 容 以 及 用 于 分 析 内 容 的 评估 标准 。 评 估 标 准 称 作 测度 (事实 的 数字 
属性 ) ,而 所 分 析 的 内 容 称 作 维度 (事实 的 描述 属性 ) 。 一 组 维度 及 其 相关 的 测度 共同 组 成 了 
所 谓 的 事实 。 
(20) 维度 
维度 的 基本 结构 就 是 层次 结构 。 维 度 层次 结构 用 于 在 比 维度 模型 中 测度 所 呈现 的 基本 
粒度 更 小 的 细节 级 (level of detail) 来 聚集 业务 测度 ,如 销售 总 收入 (Total Revenue of 
Sales)。 本 例 中 ,操作 称 作 上 卷 (roll-up) 处 理 。 上 卷 处 理 是 对 维度 模型 中 的 基本 事实 或 测 
度 执行 的 。 
如 果 将 测度 上 卷 到 更 小 的 细节 级 (level of detail) ,那么 终端 用 户 就 显然 可 以 执行 逆 操 
ME CF flo ,该 操作 包含 查看 更 详细 的 测度 ,或 按照 维度 层次 结构 探索 更 低 的 细节 级 聚集 
测度 。 
维度 建 模 最 重要 的 活动 之 一 就 是 捕获 聚集 路 径 或 终端 用 户 执行 上 卷 和 下 外 所 依照 的 聚 
集 层次 结构 。 该 过 程 将 产生 维度 模型 ,可 以 在 稍 后 执行 其 他 建 模 活动 时 扩展 和 修改 该 模型 ， 
如 慢 变 化 的 时 间 维 度 的 建 模 、 维 度 中 约束 的 处 理 以 及 跨 维度 的 关系 和 约束 的 捕获 。 
维度 建 模 与 终端 用 户 和 业务 过 程 紧 密 相关 。 为 了 使 维度 模型 持续 更 长 时 间 并 适用 于 更 
多 用 户 组 ,特别 重要 的 是 从 概念 的 观点 建 模 维度 ,寻找 终端 用 户 社区 大 致 会 感 兴趣 的 基本 的 
聚集 路 径 和 聚集 级 别 。 
用 户 通常 可 以 向 良好 定义 的 事实 添加 测度 , 且 根 本 不 对 模型 造成 很 大 影响 。 然 而 ,对 于 
维度 ,这 就 肯定 不 正确 了 ,因为 维度 层次 结构 可 能 变 得 复杂 。 
如 果 要 在 广阔 的 环境 中 考虑 问题 域 ,将 期 望 一 个 维度 中 具有 多 个 不 同 的 聚集 路 径 。 维 
度 层次 结构 中 的 分 割 可 以 在 不 同 的 级 别 上 出 现 。 已 经 分 割 的 层次 结构 可 以 稍 后 再 次 进行 分 
割 。 该 过 程 可 能 导致 复杂 的 模式 ,也 许 太 过 于 复杂 ,以致 终端 用 户 无 法 处 理 。 
一 个 通常 难以 做 出 的 重要 决策 就 是 一 个 聚集 层 是 否 真正 是 (结构 化 ) 层 次 结构 的 一 个 元 
3 ,或 它 是 否 仅 仅 是 维度 中 一 项 的 属性 。 例 如 ,将 产品 包装 单元 、 品 牌 或 存储 类 型 作为 维度 
路 径 的 显 式 元 素 ( 即 ,作为 维度 层次 结构 中 潜在 的 实体 类 型 ) 是 否 是 明智 或 必要 的 呢 ? 或 者 
是 否 可 以 仅仅 将 它们 考虑 成 产品 的 属性 呢 ? 
查找 维度 中 的 基本 聚集 路 径 通 常 意味 着 调查 维度 中 的 许多 典型 关系 。 
。 构造 或 结构 化 关系 : 信息 分 析 员 使 用 这 些 关系 来 探索 产品 及 其 组 件 之 间 的 构造 性 
关系 。 例 如 ,通过 与 产品 组 件 相关 的 成 本 和 产品 构造 相关 的 成 本 ,它们 可 以 用 于 计 
算 产品 成 本 。 
* 变化 (Variation) 关 系 : 变化 用 于 就 产品 模型 .版 本 、 实 现 、 组 件 混合 、 调 配 等 而 言 
分 产品 。 
变化 还 可 用 于 指定 产品 蔡 换 。 信 息 分 析 员 使 用 变化 关系 来 组 合 相 关 产 品 和 聚集 相关 测 
度 , 因 为 较 低级 类 别 的 产品 可 能 只 存在 于 一 段 有 限 的 时 期 内 .或 者 因为 它们 频繁 用 于 在 某 一 
过 程 中 相互 替换 (例如 , 当 “ 初 始 ” 产 品 缺 货 , 而 将 某 一 版 本 的 产品 卖 给 客户 时 )。 


x 
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。 分 类 关系 : 分 类 是 将 相似 的 产品 分 成 组 。 分 类 关系 显然 是 产品 之 间 出 现 最 频繁 的 
关系 ,信息 分 析 员 用 于 上 卷 详细 的 测度 。 请 注意 ,通常 需要 多 个 不 同类 型 的 分 类 。 
例如 ,可 以 根据 面向 销售 、 面 向 制造 、 面 向 储备 或 面向 供应 的 特点 来 对 产品 进行 分 
类 。 信 息 分 析 员 将 分 类 用 于 统计 组 中 的 聚集 测度 ,统计 组 有 总 数 \ 平 均 数 、 最 小 值 和 
最 大 值 等 。 

(21) 事实 

事实 表 只 包含 用 于 引用 维度 表 的 ID, 以 及 用 于 测量 所 有 维度 成 员 变化 或 性 能 的 测度 。 
下 一 步 就 是 将 维度 和 测度 组 织 成 事实 。 这 是 以 满足 指定 需求 的 方式 将 维度 和 测度 进行 分 组 
的 过 程 。 

事实 表 的 设计 中 要 解决 几 个 重要 问题 : 

。 粒度 ( 记 录 事 实 的 细节 级 )。 如 果 要 有 效 地 分 析 数 据 , 就 必须 都 在 同一 粒度 级 别 上 。 
一 般 说 来 ,应 该 将 数据 放 在 最 详细 的 粒度 级 别 上 。 这 是 因为 无 法 将 数据 修改 到 所 决 
定 设 置 的 细节 级 上 。 但 是 总 是 可 以 上 卷 ( 汇 总 ) 数 据 以 创建 一 个 略 粗 的 粒度 级 别 
的 表 。 

相 加 性 (要 总 结 的 测度 的 能 力 )。 测 度 分 成 三 个 类 别 : 全 相 加 的 (Fully Additive) . dË 
相 加 的 (Nonadditive) 和 半 相 加 的 (Semiadditive) 。 一 个 非 相 加 测度 的 例子 就 是 百 分 
率 。 无 法 简单 地 将 两 个 事实 的 百分率 相 加 到 一 起 ,并 产生 有 意义 的 结果 。 一 个 半 相 
加 测度 的 例子 就 是 余额 。 虽 然 可 以 将 两 个 账户 的 余额 相 加 获得 总 的 余额 ,但 无 法 将 
同一 账户 在 两 个 不 同时 间 点 的 两 个 余额 相 加 。 因 为 余额 只 是 跨 一 些 维度 进行 相 加 
的 ,所 以 称 之 为 半 相 加 测度 。 将 可 以 跨 所 有 维度 相 加 的 值 视 作 全 相 加 的 。 当 考虑 将 
在 事实 表 上 发 生 的 可 能 汇总 时 , 相 加 性 就 变 得 很 重要 。 通 常 ,全 相 加 的 测度 是 最 理 
想 的 。 当 测度 不 是 全 相 加 时 ,应 考虑 将 它们 分 成 其 原子 元 素 。 

键 选择 。 多 维 数据 建 模 中 的 键 选 择 是 一 个 难题 。 它 包含 性 能 和 易于 管理 之 间 的 权 
ff Trade-OfD 。 键 选择 主要 适用 于 维度 。 为 维度 所 选择 的 键 必 须 是 事实 的 外 键 。 
维度 键 有 两 种 选择 : 可 以 分 配 一 个 任意 键 ,或 者 使 用 操作 系统 中 的 标识 符 。 任 意 键 
通常 只 是 一 个 序列 号 , 当 需 要 一 个 新 键 时 ,就 分 配 下 一 个 可 用 的 号 码 。 

为 了 使 操作 系统 中 的 标识 符 唯一 地 表示 维度 ,有 时 需要 使 用 一 个 复合 键 。 复 合 键 就 是 
由 多 个 列 组 成 的 键 。 任 意 键 是 一 列 , 通 常 比 操作 派生 的 键 要 小 。 因 此 ,任意 键 通常 可 以 更 快 
地 执行 连接 。 

键 选择 中 的 最 后 一 个 因素 就 是 它 对 事实 表 的 影响 。 在 创建 事实 时 ,必须 将 每 个 维度 的 
键 分 配给 它 。 如 果 维 度 将 带 有 时 间 戳 的 操作 派生 的 键 用 于 历史 数据 ,那么 在 创建 事实 时 ,就 
没有 附加 工作 。 连 接 将 自动 发 生 。 对 于 任意 键 或 任意 历史 标识 符 ,在 创建 事实 时 ,就 必须 将 
一 个 键 分 配给 事实 。 

分 配 键 的 方式 有 两 种 。 一 种 就 是 维护 操作 和 数据 仓库 的 键 的 转换 表 。 另 一 种 就 是 存储 
操作 键 , 并 且 在 必要 时 ,存储 时 间 戳 作为 维度 上 的 属性 数据 。 

那么 ,选择 就 在 任意 键 的 更 好 性 能 和 操作 键 的 更 易 维护 之 间 进 行 。 性 能 提高 多 少 和 维 
护 增 加 多 少 的 问题 就 必须 在 自己 的 组 织 中 进行 评估 。 

无 论 做 出 什么 选择 ,都 必须 在 元 数据 中 用 文档 记录 生成 它们 的 过 程 。 该 信息 对 于 管理 
和 维护 数据 仓库 的 技术 人 员 来 说 是 必要 的 。 如 果 所 使 用 的 工具 没有 隐藏 连接 处 理 , 那 么 用 
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户 可 能 也 需要 理解 这 一 点 。 

既然 理解 了 维度 和 事实 表 的 处 理 ,那么 就 来 看 一 看 真实 世界 的 例子 ,以 探索 如 何 从 业务 
需求 中 识别 维度 和 测度 。 该 例子 只 是 对 于 一 系列 业务 问题 的 基本 分 析 。 这 些 业务 问题 被 定 
义 为 示例 需求 : 

(D 按照 银行 支行 进行 统计 ,本 月 客户 的 平均 余额 和 交易 数 是 多 少 ? 

@ 按照 支行 产品 和 地 区 汇总 ,要 付 给 每 位 客户 的 年 净利 润 和 利息 是 多 少 ? 

O 百 分 之 几 的 客户 是 盘 利 的 ? 将 他 们 按照 支行 .地 区 和 年 分 类 。 

@ 本 年 一 位 客户 的 总 交易 量 是 多 少 ? 

C) 按照 地 区 ,最 一 利 的 前 5 位 产品 是 什么 ? 

© 在 最 近 5 年 里 ,最 一 利 的 前 5 个 支行 是 哪儿 个 ? 

CD. 最 一 利 的 客户 的 人 口 和 地 理 特点 是 什么 ? 

通过 分 析 这 些 问题 ,就 定义 出 了 需要 满足 需求 的 维度 和 测度 ( 见 表 4. 1) 。 


表 4.1 维度 和 测度 表 


维度 和 测度 Qi Q2 Q3 Q4 Q5 Q6 Q7 
维度 ? ? ? ? + ? ? 
支行 TA TX TX ? ? ? X ? X 
地 区 ? TA ?X ? ? X ? ?7X 
客户 ? X ?7X TX ?X ? t ? X 
品 ? ? X ? X ? ? X ? ? 
时 间 ? X ?7X ?7X ?7X T ?X ? 
? ? ? ? ? 1 ? ? 
测度 ? ? ? + ? ? ? 
余额 ? ? T ? 1 + ? 
交易 量 ? ? ? ?7X ? 1 * 
交易 数 ? ? ? ? 1 ? ? 
净利 润 ? ? X ? X ? ? X T ?7X 
所 付 利息 ? ?7X ? ? ? ? ? 


此 时 ,要 检查 维度 以 确保 : 

。 具有 用 于 回答 问题 的 数据 。 

。 在 最 细 的 级 别 定义 了 所 有 的 测度 。 

使 用 这 些 简化 的 分 析 问 题 来 决定 最 终 的 星 型 模型 中 包含 什么 以 及 排除 什么 : 

。 余额 和 交易 数 基于 交易 量 的 聚集 ,所 以 它们 是 派生 的 测度 。 

。 所 付 利息 的 计算 是 将 账户 利率 乘 以 余额 。 这 是 基于 账户 和 基于 月 份 的 计算 。 因 为 
利率 是 Account 表 的 一 个 属性 ,所 以 需要 添加 Account 维度 表 。 正 如 可 以 看 到 的 ， 
所 付 利息 也 是 派生 的 测度 。 

。 假定 净利 润 基于 (投资 收益 ) 一 (所 付 利 息 ) 的 计算 。 因 为 投资 收益 是 银行 级 的 测度 ， 
而 所 付 利息 是 派生 的 测度 ,所 以 净利 润 也 是 派生 的 测度 。 

从 以 上 分 析 得 出 的 结论 有 : 
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。 交易 量 是 唯一 需要 的 测度 。 
° 需要 账户 维度 来 产生 利率 和 投资 收益 信息 。 
(22) 模型 元 数据 
在 传统 的 开发 周期 中 ,完成 一 个 模型 之 后 ,只 有 需要 进行 修改 或 其 他 项 目 需要 数据 时 ， 
才 使 用 它 。 但 是 在 该 仓库 中 ,要 连续 使 用 模型 。 仓 库 的 用 户 不 断 访问 该 模型 以 决定 他 们 需 
要 用 于 分 析 组 织 的 数据 。 仓 库 中 数据 结构 的 修改 速度 比 操作 性 数据 结构 要 快 得 多 。 因 此 ， 
仓库 的 技术 用 户 ( 管 理 员 、 建 模 师 、 设 计 师 等 等 ) 也 将 定期 使 用 创建 的 模型 。 
这 就 是 元 数据 所 承担 的 任务 。 远 远 不 只 是 一 幅 漂亮 的 图 画 , 该 模型 必须 是 所 存储 数据 
的 完整 表示 ,否则 , 它 对 于 任何 人 都 毫 无 用 处 。 
为 了 正确 理解 模型 ,以 及 可 以 确认 它 满足 了 需求 ,用 户 必 须 访 问 按照 容易 理解 的 业务 术 
语 描述 仓库 的 元 数据 。 因 此 ,应 在 此 时 记录 非 技术 的 元 数据 。 在 设计 阶段 ,将 向 它 添 加 技术 
元 数据 。 
在 仓库 级 上 ,应 提供 仓库 中 可 用 东西 的 列表 。 该 列表 包含 可 用 的 模型 .维度 .事实 和 测 
JE ,因为 当 用户 开 始 分 析 数 据 时 ,这 些 都 将 用 作 初 始 的 进入 点 。 
对 于 每 个 模型 ,提供 名 称 、 定 义 和 目 的 。 名 称 仅仅 给 用 户 提 供 一 些 搜 索 时 关注 的 东西 。 
它 通常 与 事实 相同 。 定 义 指定 建 模 的 内 容 , 而 目的 描述 模型 用 于 什么 。 模 型 的 元 数据 也 应 
包含 与 之 相关 的 维度 .事实 和 测度 列表 ,以 及 联系 人 员 的 姓名 ,以 便 用 户 在 有 关于 模型 的 问 
题 时 ,能 够 获得 附加 的 信息 。 
(23) 模型 验证 
在 投入 大 量 时 间 和 精力 实现 仓库 数据 库 之 前 ,与 用 户 一 起 验证 模型 是 一 个 很 好 的 想法 ， 
特别 是 数据 集 市 模型 。 进 行 该 检查 的 目的 是 双重 的 。 首 先 , 它 确认 模型 可 以 真正 满足 用 户 
的 需求 。 其 次 ,检查 应 确认 用 户 可 以 理解 该 模型 。 请 记 住 ,一 旦 构建 了 仓库 ,用 户 就 会 定期 
依靠 模型 访问 仓库 中 的 数据 。 无 论 模型 多 么 好 地 满足 了 用 户 的 需求 ,如 果 用 户 无 法 理解 模 
型 从 而 妨碍 访问 数据 ,那么 这 样 的 仓库 都 是 失败 的 。 
此 时 ,验证 是 在 高 级 别 上 完成 的 。 与 用 户 一 起 检查 该 模型 以 确认 它 是 可 以 理解 的 。 与 
用 户 一 起 ,通过 解决 需求 中 指定 的 部 分 问题 来 测试 模型 。 
模型 不 必 满 足 用 户 的 所 有 需求 ,这 一 点 是 好 的 。 但 这 不 意味 着 应 该 停止 并 返回 到 开始 。 
期 望 模型 的 第 一 次 切入 满足 约 50% 的 需求 。 接 受 模型 的 这 5076 (或 者 无 论 验证 了 多 少 ) ,并 
开始 进行 物理 设计 。 应 将 剩余 的 送 回 给 需求 的 收集 阶段 。 要 么 需要 更 好 地 理解 需求 ,要 么 
通常 需要 修改 并 重新 定义 它们 。 这 常常 会 导致 对 已 创建 的 模型 进行 添加 和 修改 。 同 时 , 模 
型 的 有 效 部 分 将 通过 设计 阶段 ,并 开始 向 用 户 提 供 便利 。 
开发 的 重复 和 部 分 完整 模型 的 继续 创建 是 提供 快速 开发 数据 仓库 能 力 的 关键 元 素 。 
在 需求 的 验证 过 程 中 将 : 
。 对 照 给 定 的 用 户 需求 ,检查 初始 维度 模型 的 连贯 性 和 完整 性 以 及 有 效 性 。 与 终端 用 
户 一 起 分 析 初 始 模型 。 这 将 允许 需求 分 析 员 执 行 更 多 调查 ,并 在 将 其 传递 给 需求 建 
模 阶 段 之 前 调整 这 些 初 始 模型 (尝试 按照 模型 中 所 表达 的 内 容 修改 需求 ) 。 
。 指定 候选 的 数据 源 。 建 立 必要 和 可 用 数据 源 的 库存 。 
。 将 初始 维度 模型 和 可 能 配 有 的 信息 化 终端 用 户 需 求 映射 到 指定 的 数据 源 。 这 通常 
是 一 项 宛 长 乏味 的 工作 。 源 数据 映射 必须 调查 下 列 映射 问题 : 
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CD 哪些 源 数据 项 可 用 ,哪些 不 可 用 ? 对 于 不 可 用 的 那些 源 数 据 项 ,是 否 应 扩展 源 应 用 
程序 ? 是 否 可 以 使 用 外 部 数据 源 找 到 它们 ? 或 者 是 否 应 向 终端 用 户 通知 它们 的 不 可 用 性 ， 
并 且 因 此 ,是 否 应 减 小 维度 模型 的 范围 ? 

© 数据 源 中 是 否 有 其 他 可 用 但 没有 请 求 的 有 趣 数据 项 呢 ? 指定 可 用 但 没有 请 求 的 数 
据 项 可 能 暴露 信息 分 析 活 动 的 其 他 有 趣 方 面 ,并 且 可 能 因此 极 大 地 影响 所 构造 的 维度 模型 
的 内 容 和 结构 。 

@ 验证 数据 集 市 设计 没有 违背 任何 业务 安全 性 设置 。 因 为 数据 集 市 是 为 特定 的 终端 
用 户 组 设计 的 ,所 以 确认 它 只 包含 该 组 必要 的 信息 是 很 好 的 想法 。 

。 执行 模型 的 初始 大 小 调整 。 如 果 完 全 可 能 ,初始 的 大 小 调整 还 应 调查 与 填充 数据 仓 

库 相关 的 容量 和 性 能 方面 的 情况 。 

需求 验证 的 结果 将 帮助 评估 数据 仓库 开发 项 目的 范围 和 复杂 性 ,并 (重新 ) 评 估 业 务 的 
调整 ,包括 技术 ,金融 和 资源 的 评估 。 需 求 验 证 必须 与 终端 用 户 协同 执行 ,以 暴露 和 改正 不 
完整 或 不 正确 初始 模型 的 所 有 问题 。 需 求 验 证 可 能 涉及 构建 维度 模型 的 原型 。 

需求 验证 过 程 将 确认 或 重新 建立 终端 用 户 需求 和 期 望 。 作 为 需求 验证 的 结果 ,还 可 能 
指定 和 评估 源 数据 重组 (Reengineering) 建 议 。 在 需求 验证 的 最 后 ,将 获得 用 于 数据 仓库 建 
模 项 目的 (新 的 )* 签 字 ”。 仓 库 数 据 模型 评估 过 程 如 图 4.7 所 示 。 
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图 4.7 仓库 数据 模型 评估 过 程 


4.2.2 使 用 IBMQ@ InfoSphere? Data Architect 对 DB2 创建 的 全 局 
临时 表 建 模 


(1) 问题 描述 

如 果 某 人 是 一 家 公司 IT 部 门 员工 。 公 司 花 钱 为 其 客户 执行 项 目 。 该 人 的 团队 需要 开 
发 一 个 项 目 成 本 控制 应 用 程序 ,该 应 用 程序 可 生成 项 目 执行 报告 ,以 便 帮助 管理 部 门 制定 决 
策 。 以 下 要 求 是 应 用 程序 必须 考虑 的 。 

* 企业 可 为 同一 个 客户 执行 多 个 项 目 。 

。 按照 商定 的 条 款 , 在 完成 项 目 后 ,客户 需要 支付 一 定 的 费用 。 

。 项 目 应 有 一 个 开始 日 期 和 一 个 结束 日 期 。 
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。 必须 将 企业 员工 分 配 到 具体 的 项 目 。 员 工 在 任 一 时 间 点 只 能 从 事 一 个 项 目 工作 。 

* 企业 员工 需要 按 月 支付 薪酬 。 

。 项 目 费 用 分 为 以 下 几 类 : 

€ 薪金 

原材料 

制造 

包装 

运输 

管理 人 员 需 要 使 用 以 下 报告 进行 分 析 和 制定 决策 。 

* 已 完成 项 目的 单独 项 目 成 本 报表 。 

* 项 目 ID 和 项 目 名 称 

4 完成 项 目 后 的 费用 由 客户 支付 

e 各 种 项 目 成 本 费用 

e 项 目 执 行 总 费用 

。 利润 率 一 (( 价 格 一 总 产 成 本 )/ 总 成 本 ) X100 

已 完成 项 目的 财 年 整合 报表 。 

* 财务 年 度 和 执行 的 项 目 数 

* 项 目 收入 

e 项 目 执行 总 费用 

4 利润 率 一 (( 项 目 收 入 一 项 目 总 成 本 )/ 项 目 总 成 本 )X100 

+ 目前 正在 运行 的 、 成 本 已 超出 报价 的 项 目 

* 项 目 ID 和 项 目 名 称 

e 价格 

4 目前 已 发 生 的 总 成 本 

4 成 本 超支 

4 客户 ID 和 客户 名 称 

为 客户 执行 的 完成 项 目 利润 率 报表 。 

+ 客户 ID 和 客户 名 称 

项 目 号 

执行 项 目的 总 收入 

执行 项 目 已 发 生 的 总 成 本 

利润 率 
(2) 模型 设计 
可 以 创建 一 个 简化 版 的 迎 辑 数据 模型 ProjectCostModel. ldm, 它 包含 建 模 问题 撒 述 中 

列 出 的 需求 的 字符 实体 、 属 性 和 关系 ,如 图 4.8 所 示 。 
具体 项 目 PROJECT 实体 模型 信息 如 下 。 
PROJECT ID: 项 目的 唯一 标识 符 代码 。 
PROJECT_NAME: 项 目 名 称 。 
PROJECT. DESCRIPTION : 项 目 描述 。 


. 
* * * + 


* +è +è + 
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E PROJECT pPo— ————-—-—- H (ü cusrowen 
X PROXCT ID : VARCHAR(10) A CUSTOMER. 1D : VARCHAR(10) 


BY PROJECT, NAME : VARCHAR(20) 

m PROJECT. DESCRIPTION : VARCHAR(30) 
pI PROXECT. PRICE : DOUBLE 

i PROXECT, START, DATE : DATE 

OI PROXCT. END DATE : DATE 

'9— CUSTOMER. JD : VARCHAR(10) 

qj PROXECT. STATUS : INTEGER 


T CUSTOMER NAME : VARCHAR(20) 
cJ CUSTOMER, DESCRIPTION : VARCHAR(30) 


IE 
PROJECT. ( FK pu l a 
X EMPLOYEE. ID : VARCHAR(10) 

F 8 PRONCT PPENSES DY EMPLOYEE NAME : VARCHAR(20) 

eS PROECT_PPENSES_ID : VARCHAR(10) © EMPLOYEE. DESIGNATION : VARCHAR(20) 
OVE. Fl: 
qj PROXCT. EXPENSES, CATEGORY : VARCHAR(10) 
QI PROXCT. EXPENSES, AMOUNT : DOUBLE 
© PROJECT ID : VARCHAR(10) 
(ü SALARY 


图 4.8 简化 的 项 目 成 本 控制 系统 逻辑 数据 模型 


PROJECT_PRICE: 项 目 价格 。 
PROJECT_START_DATE: 项 目 开始 日 期 。 
PROJECT_END_DATE: 项 目 结束 日 期 。 
PROJECT_STATUS: 表明 项 目 正 在 运行 或 已 完成 。 
CUSTOMER ID; 客户 的 唯一 标识 符 代码 。 
PAKA IY CUSTOMER 实体 模型 信息 如 下 。 
CUSTOMER ID; 客户 的 唯一 标识 符 代码 。 
CUSTOMER_NAME: 客户 名 称 。 
CUSTOMER_DESCRIPTION: 客户 描述 。 

特定 员工 的 EMPLOYEE 实体 模型 如 下 。 
EMPLOYEE ID: 员工 的 唯一 标识 符 代码 。 
EMPLOYEE_NAME: 员工 名 。 

EMPLOYEE DESIGNATION: 员工 编号 。 
HEKE SALARY 实体 模型 信息 如 下 。 
EMPLOYEE ID: 员工 的 唯一 标识 符 代码 。 
SALARY MONTH: 薪金 支付 月 份 。 

SALARY YEAR: 薪金 支付 年 份 。 

SALARY AMOUNT. 薪金 数额 。 

具体 项 目 非 薪 金 费用 PROJECT. EXPENSES 实体 模型 信息 如 下 。 
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PROJECT EXPENSES ID: 项 目 费用 唯一 标识 符 代码 。 

PROJECT_EXPENSES_CATEGORY: 薪金 之 外 的 其 他 费用 种 类 。 

PROJECT EXPENSES AMOUNT: 费用 总 额 。 

PROJECT_ID: 项 目的 唯一 标识 符 。 

(3) 将 逻辑 数据 模型 转化 成 物理 数据 模型 

逻辑 数据 模型 设计 已 得 到 业务 用 户 的 批准 。 要 建 模 物理 存储 ,必须 将 逻辑 数据 模型 转 
化 成 所 使 用 的 DBMS 物理 数据 模型 。 执 行 以 下 步骤 进行 模型 转化 。 

O 布 击 选择 【人 逻辑 模型 】 ,然后 从 上 下 文 菜单 中 选择 Transform to Physical Data 
Model, 如 图 4.9 所 示 。 


图 4.9 将 逻辑 数据 模型 转化 成 物理 数据 模型 


© 从 Target Physical Data Model 页 面 中 选择 Create new model 选项 。 

图 从 Physical Data Model File 页 面 中 指定 文件 名 .然后 选择 所 使 用 的 数据 库 详细 信 
息 。 在 图 4. 10 中 ,DB2 for z/OS V10( 新 功能 模式 ) 被 选中 。 

CD 在 Options 页 面 中 ,在 Schema name 字段 中 指定 COST_MODEL_SCHEMA, 如 
4.11 所 示 。 其 他 选项 保留 默认 值 。 

© 在 Output 页 面 中 查看 转化 状态 ,然后 选择 Finish 生成 物理 数据 模型 。 物 理 数据 模 
型 ProjectCostModel. dbm 是 从 膛 辑 数据 模型 中 创建 的 。 

CD 查看 生成 的 物理 数据 模型 

查看 Data Project Explorer 中 的 物理 数据 模型 ,如 图 4. 12 所 示 。 
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图 4.11 选项 页 面 


由 - 转 EMPLOYEE, X PROJECT 
E-E PROJECT 
-E PROJECT. EXPENSES 

l || 图 SALARY 


图 4.12. 查看 Data Project Explorer 中 的 物理 数据 模型 


在 查看 物理 数据 模型 的 过 程 中 ,会 发 现下 列 项 是 真 的 。 

COST_MODEL_SCHEMA 模式 已 创建 。 

已 经 创建 了 6 个 表 : CUSTOMER, EMPLOYEE, EMPLOYEE. X. PROJECT, 
PROJECT,PROJECT EXPENSES 和 SALARY ,这 些 表 的 列 是 从 人 逻辑 数据 模型 属性 中 转 
换 而 来 的 。 

对 于 分 配给 员工 的 每 个 项 目 , 员 工 都 有 一 个 开始 日 期 和 一 个 结束 日 期 。 因 此 ,需要 将 
DATE 类 的 START_DATE 和 END_DATE 列 添加 到 EMPLOYEE_X_PROJECT 表 。 

物理 逻辑 模型 的 对 话 框 视图 如 图 4. 13 所 示 。 

(5) 创建 全 局 临时 表 支 持 

报表 需求 需要 使 用 从 多 个 表 中 获取 的 已 处 理 过 的 数据 。 这 类 聚合 数据 和 处 理 过 的 数据 
通常 位 于 要 生成 的 报表 之 间 。 在 这 种 情况 下 ,数据 可 能 被 多 次 获取 、 聚 合 和 处 理 ,从 而 导致 
报表 生成 时 间 增 加 。 

这 种 情况 通过 可 以 使 用 已 创建 的 全 局 临时 表 来 避免 ,该 表 将 存储 这 类 常见 的 聚合 数据 
和 已 处 理 数据 ,这 些 数据 是 许多 报表 暂时 需要 的 。 

对 于 当前 需求 ,所 有 报表 都 需要 了 解 项 目的 各 种 成 本 类 别 下 的 费用 。 这 些 数据 可 计算 
一 次 ,然后 存储 在 临时 表 中 , 供 所 有 报表 重用 。 

项 目 费 用 可 分 成 薪金 和 非 薪金 (原始 材料 ,制造 ,包装 和 运输 ) 费 用 。 

项 目的 薪金 费用 是 使 用 EMPLOYEE_X_PROJECT fil SALARY 表 中 的 数据 进行 计算 
的 。 如 果 一 个 员工 在 某 个 月 做 了 多 个 项 目 , 那 么 薪金 将 根据 该 员工 这 个 月 进行 每 个 项 目的 
天 数 按 比例 分 摊 到 单个 项 目 中 。 

非 薪金 项 目 存储 在 PROJECT_EXPENSES 表 中 。 同 一 个 成 本 类 别 下 的 多 个 费用 项 被 
聚合 和 存储 到 一 个 临时 表 中 。 


E PROXCCT EXPENSES | 
| 48. PROJECT. EXPENSES TD : VARCHAR(10) 


Ë PROJECT EXPENSES CATEGORY : VARCHAR(10) 
Ë PROJECT, EXPENSES AMOUNT : DOUBLE 
家 PROJECT JD : VARCHAR(10) 
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E EMPLOYEE. X. PROXECT 
i EMPLOYEE. ID : VARCHAR(10) 
së PROXECT. JD : VARCHAR(10) 


| B START, DATE : DATE 


Ë END DATE : DATE 


Y _ _ 


— 


| E PROJECT 
| : VARCHAR(10 

k PROJECT. JD : VARCHAR(10) I BR 

| Ë PROXECT NAME : VARCHAR(20) së EMPLOYEE. JD : VARCHAR(10) 
| Ë PROJECT. DESCRIPTION : VARCHAR(30) $ SALARY. MONTH : INTEGER. 


| B PROXECT PRICE : DOUBLE 


起 SALARY YEAR : INTEGER. 


Ë PROJECT. START, DATE : DATE 
Ë PROJECT END DATE : DATE Ë SALARY AMOUNT : DOUBLE 


| Ë CUSTOMER. JD : VARCHAR(10) 
| B PROJECT STATUS : INTEGER 


-y 
T 
E CUSTOMER 


| f. CUSTOMER ID : VARCHAR(10) 


| B CUSTOMER. NAME : VARCHAR(20) 


Em EMPLOYEE 
| (f. EMPLOYEE, ID : VARCHAR(10) 


Ë EMPLOYEE, NAME : VARCHAR(20) 


E CUSTOMER, DESCRIPTION : VARCHAR(30) f. EMPLOYEE, DESIGNATION : VARCHAR(20) 


图 4.13 物理 数据 模型 的 对 话 框 视 图 
通过 将 下 列 数据 存储 在 一 个 临时 表 中 ,可 以 看 到 报表 生成 响应 时 间 大 大 减少 了 。 


。 项 目 薪金 总 额 
。 项 目的 已 发 生 费 用 的 总 额 
* 不 同 成 本 种 类 的 项 目 费 用 


可 以 创建 两 个 已 创建 的 全 局 临时 表 来 保存 上 述 数据 
。 TEMP_PROJECT_COST_SUMMARY 
PROJECT ID: 项 目的 唯一 标识 符 代码 。 

SALARY COST: 该 项 目 已 发 生 的 薪金 费用 。 


TOTAL COST: 该 项 目 已 发 生 的 费 
PROJECT_PRICE: 该 项 目的 价格 。 
* TEMP PROJECT EXPENSES 


用 总 额 。 


PROJECT ID; 项 目的 唯一 标识 符 代码 。 
PROJECT EXPENSES CATEGORY: 除 薪金 外 的 费用 种 类 。 例 如 : 原料 、 制 造 费 


用 等 。 
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AMOUNT: 某 一 个 费用 类 下 的 项 目 费 用 总 额 。 这 是 该 项 目 某 个 成 本 类 别 下 的 所 有 已 
发 生 费用 的 总 和 。 

可 以 执行 以 下 任务 ,创建 一 个 CGTT 来 存储 该 常用 数据 。 

(D 在 Data Project Explorer 中 右 击 选择 COST MODEL SCHEMA, 

© 选择 Add Data Object >Created Global Temporary Table 命令 ,如 图 4. 14 所 示 。 


图 4.14 添加 CGTT 支持 


© 将 表 重 命名 为 TEMP PROJECT COST SUMMARY, 

CD 重复 第 1 步 和 第 2 步 。 

© 将 表 重 命名 为 TEMP_PROJECT_EXPENSES。 

© 对 于 DB2 for Linux. UNIX.and Windows, 可 以 为 CGTT 显 式 设置 On Commit 和 
Loggin 属性 ,如 图 4. 15 所 示 。 


[š «Temporary Table> TEMP_PROJECT_SALARY_COST 

Name: Tevmorcr me OOOO 
| Distribution Key Label: 

Schema: Schema 


图 4.15 DB2 Linux, UNIX, and Windows 的 CGTT 属性 页 面 
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C 将 以 下 列 添加 到 表 TEMP_PROJECT__COST_SUMMARY: PROJECT ID, 
SALARY_COST TOTAL_COST、PROJECT_PRICE, 如 图 4. 16 所 示 。 

@ 将 以 下 列 添加 到 表 TEMP PROJECT EXPENSES: PROJECT ID, PROJECT - 
EXPENSES CATEGORY 和 AMOUNT ,如 图 4. 16 所 示 。 


回国 EMPLOYEE. X. PROXECT 
E-E PROJECT 


— B PROJECT 1D [VARCHAR(10) Nulable] 
l Ë SALARY_COST [DOUBLE Nulable] 
[- B TOTAL, COST [DOUBLE Nulable] 
| B PROJECT. PRICE [DOUBLE Nullable] 
日 - 醒 TEMP PROJXECT EXPENSES. 
B. PROJECT ID [VARCHAR(10) Nulable] 
~ PROJECT, EXPENSES. CATEGORY [VARCHAR(10) Nulable] 
Ë AMOUNT [DOUBLE Nulable] 


图 4.16 添加 列 


(6) 生成 DDL 

执行 以 下 步骤 ,生成 DDL 脚本 来 部 署 模型 ,然后 与 数据 库 管理 员 共 享 该 脚本 ,以便 在 数 
据 库 服务 器 上 运行 。 

(D 在 Data Project Explorer 中 右 击 选择 COST MODEL SCHEMA 模式 。 

© 选择 Generate DDL ,如 图 4. 17 所 示 。 


E (Ë Projecti 
由 借 Mappings 
由 人 xML Schemas 
由 -外 Data Diagrams 
日 人 @ Data Models 
”日 区 projectcostModeldbm 
|j | S Location 
E-G Diagrams 
d) SQL Statements. 
as 
EHE Diagrams 
E-E CUSTOMER 
EE EMPLOYEE 
由 -图 EMPLOYEE X PRC 
E-E3 PROXECT 
外力 PROJECT 
E ES SALARY 
由 -发 TEMP. PROJECT. 
iid E-Eg TEMP PROXCT I 
^d] ProiectCostModel Idm 


4.17 生成 新 模式 DDL 


98 || 大 数据 基础 与 管理 


@ 完成 Generate DDL 向 导 页 面 。 不 要 改变 Options 和 Objects 页 面 的 默认 设置 。 

@ 在 Save and Run DDL 页 面 中 指定 一 个 文件 名 ,如 图 4. 18(DB2 for z/OS) 和 图 4. 19 
(DB2 for Linux, UNIX,and Windows) 所 示 。 记 住 该 文件 名 ,以 便 能 够 与 数据 库 管 理 员 轻 
松 地 共享 该 文件 ,让 他 们 可 以 做 所 需要 的 更 改 。 


Save and Run DDL 
Specify a path to save the generated DDL script. You can run the DDL script by providing your 
database connection information. 


图 4.18 DB2 for z/OS 的 Save and Run DDL 页 面 


© 如 果 人 允许 直接 将 数据 模型 部 署 到 服务 器 上 ,那么 可 以 在 选择 Next 之 前 选择 Run 
DDL on Server 选项 。 

© 在 Select Connection 页 面 选择 一 个 现 有 链接 ,如 图 4. 20 Bros ,或 者 通过 选择 New 
指定 一 个 新 连接 。 

C 验证 在 页 面 上 选择 的 选项 ,然后 选择 Finish 生成 DDL, 

(7) 检查 数据 库 服务 器 中 部 署 的 模型 

在 数据 库 管 理 员 运行 了 DDL 脚本 之 后 .可 以 通过 将 文件 夹 扩 展 到 COST_MODEL_ 
SCHEMA 模式 来 检查 Data Source Explorer 中 部 署 的 更 改 。 通 过 查看 该 模型 ,验证 表 
CUSTOMER, EMPLOYEE, EMPLOYEE _ X PROJECT, PROJECT, PROJECT _ 
EXPENSES 和 SALARY 是 否 位 于 Tables 文件 夹 中 , TEMP _ PROJECT _ COST _ 
SUMMARY 和 TEMP PROJECT EXPENSES 是 否 位 于 Temporary Tables 文件 夹 中 ,如 
图 4.21 所 示 。 
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€ ioj xÍ 
Save and Run DDL 
[mn — 
LI r—-————————— 


==... Bj 
==... Bj 


-—1 


图 4. 20 选择 一 个 链接 


E-O Storage Groups 

EHG Schemas [Filtered] 

Í EBE COST_MODEL_SCHEMA 
E-O Alases 


由 -图 EMPLOYEE. X. PROXECT. 
E-E PROJECT 


图 4.21 查看 部 署 的 项 目 成 本 模型 


(8) 结束 语 

在 本 小 节 中 ,学 习 了 如 何 为 一 个 已 经 为 某 个 项 目 成 本 控制 系统 创建 的 全 球 临 时 表 和 需求 
进行 建 模 。 还 学 习 了 InfoSphere Data Architect 8. 5 如 何 为 DB2 for z/OS 和 DB2 for 
Linux, UNIX,and Windows 提供 一 个 建 模 临时 数据 需求 的 便利 方式 。 

这 里 可 以 轻松 地 创建 一 个 具有 CGTT 支持 的 物理 数据 模型 。 然 后 ,还 可 以 使 用 临时 特 
定 表 语法 生成 DDL 脚本 ,该 语法 是 将 这 些 变更 部 署 到 目标 数据 库 所 必需 的 。 


4.3 数据 模型 管理 


4.3.1 数据 模型 管理 器 


数据 模型 管理 器 包括 MDM Server for PIM 系统 中 所 有 数据 建 模 、 安 全 建 模 和 流程 建 
模 的 组 件 ,以 及 一 些 产品 管理 所 需 的 辅助 工具 。 

该 模块 的 目标 用 户 是 业务 流程 分 析 专 家 IT 集成 专家 。 

用 户 通过 数据 模型 管理 器 ,可 以 进行 独立 于 数据 内 容 的 元 数据 建 模 , 进 行 基于 工作 流 的 
业务 流程 建 模 , 通 过 该 模块 ,用 户 还 可 以 定义 组 件 级 别 的 安全 管理 机 制 ,定义 待 调度 的 工作 、 
警报 等 产品 管理 组 件 。 

通过 图 4. 22, 可 以 看 到 该 模块 包括 很 多 非常 重要 的 子 模块 ,这 里 会 重点 描述 其 中 的 规 
范 、 工 作 流 和 安全 管理 子 模块 的 功能 ,其 余子 模块 的 功能 简介 可 以 参阅 MDM Server for 
PIM 产品 在 线 用 户 手 册 。 
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图 4.22 数据 模型 管理 器 的 子 功能 模块 


4.3.2 规范 


规范 是 MDM Server for PIM 产品 中 最 重要 的 组 件 ,是 对 该 产品 中 产品 目录 产品 分 类 
层次 ,组织 层 次 结构 、 待 导入 /导出 的 文件 格式 的 元 数据 描述 。 它 是 所 有 产品 信息 管理 活动 

规范 种 类 分 为 7 种 ,如 图 4.23 所 示 , 以 下 给 出 4 种 常用 规范 类 型 的 简介 ,对 于 其 他 几 种 
规范 的 使 用 细节 ,可 以 参阅 MDM Server for PIM 产品 的 在 线 用 户 手册 。 


图 4.23 不 同类 型 的 规范 


* 文件 规范 (File Spec): 文件 规范 是 用 来 定义 待 导 入 的 文件 格式 的 规范 。 举 例 来 说 ， 
假设 一 个 外 部 的 csv 文件 含有 3 列 ,分 别 是 产品 条 目 ID ,产品 条 目 名 称 , 产 品 条 目 描 
述 。 那 么 为 了 将 该 文件 中 的 产品 条 目 信 息 导 入 到 MDM Server for PIM 产品 中 ,就 
需要 首先 定义 一 个 文件 规范 ,该 文件 对 应 csv 文件 的 结构 描述 ,会 含有 3 个 属性 节 
点 ,分 别 是 整数 类 型 的 产品 ID ,字符 串 类 型 的 产品 名 称 和 字符 串 类 型 的 产品 描述 。 
。 目标 规范 (Destination Sepc) : 与 文件 规范 相反 ,目标 规范 是 用 来 定义 待 导 出 的 产品 
信息 文件 结构 的 。 
。 主要 规范 (Primary Spec): 用 来 描述 产品 目录 ,或 者 是 类 别 层次 结构 ,还 可 能 是 组 织 
层次 结构 中 数据 单 体 的 属性 结构 集合 。 
° 辅助 规范 (Secondary Spec): 用 来 指定 特定 于 分 类 (Category) 级 别 的 属性 集合 。 
以 啤酒 产品 管理 的 例子 来 曾 述 辅助 规范 的 用 途 。 
对 于 产品 单 品 的 按 产 地 划分 的 类 别 层次 管理 ,如 果 对 于 北方 产 区 的 啤酒 需要 额外 记录 
其 质 检 日 期 和 质 检 员 信息 (所 谓 额 外 是 指 在 主要 规范 中 没有 定义 质 检 日 期 和 质 检 员 信息 属 
性 ) ,那么 系统 管理 员 就 可 以 针对 此 种 需求 定义 一 个 辅助 规范 ,包含 质 检 日 期 和 质 检 员 信息 
属性 定义 。 将 辅助 规范 应 用 到 层次 结构 中 的 北方 产 区 分 类 中 。 那 么 对 于 所 有 归 类 到 北方 产 
区 的 啤酒 产品 单 体 ,就 会 在 产品 的 主要 规范 的 属性 定义 集合 之 外 ,多 出 此 规范 中 定义 的 属性 
描述 。 可 以 看 到 ,辅助 规范 是 对 主要 规范 的 补充 。 这 种 功能 对 于 产品 元 数据 的 灵活 定制 是 
非常 重要 的 。 
(1) 工作 流 
一 个 完善 的 产品 信息 管理 系统 ,业务 流程 建 模 支 持 是 不 可 缺少 的 一 部 分 。 MDM Server 
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for PIM 产品 中 的 工作 流 是 对 企业 业务 流程 的 完美 翻译 和 总 结 。 
工作 流 的 基本 组 成 元 素 是 工作 流 步 又 (Workflow Step) ,工作 流 步 又 有 图 4. 24 所 示 的 几 类 。 


在 每 个 工作 流 步骤 中 ,工作 流 创建 者 可 以 指定 ， = 区 
。 工 作 流 步骤 中 的 数据 操作 者 即 用 户 或 者 角色 。 gu 


。 被 操作 的 属性 集合 (Attribute Collection) ,操作 可 区 — 2 
分 为 只 读 、 可 编辑 和 必须 提供 信息 (Required) 三 类 。 — mia 
。 基 于 数据 流入 .流出 超时 事件 编程 ,完成 用 户 额外 需 BEA 
要 的 一 些 功能 。 比 如 做 数据 合法 性 的 校 验 等 等 。 n 
一 旦 用 户 定义 好 所 有 的 工作 流 步骤 ,就 可 以 返回 到 工作 Eun 
流 创建 界面 ,从 初始 到 结束 将 所 有 的 工作 流 步骤 串 接 起 来 。 
这 样 ,一 个 完整 的 工作 流 便 创 建 好 了 。 以 后 在 协作 管理 器 中 图 4.24 工作 流 步骤 
便 可 以 用 创建 好 的 工作 流 作为 骨架 ,创建 协作 区 ,将 业务 流 
程 实例 化 ,进行 实际 的 产品 数据 (无 论 是 产品 条 目 还 是 产品 分 类 ) 的 业务 流程 管理 。 
(2) 安全 管理 
MDM Server for PIM 产品 的 安全 体系 所 面 括 的 所 有 组 成 元 素 都 是 通过 安全 管理 模块 
创建 的 。 
通常 ,系统 管理 员 会 在 系统 中 创建 角色 ,如 为 销售 经 理 创建 一 个 经 理 角色 。 随 后 ,系统 
管理 员 会 创建 访问 控制 组 ,在 访问 控制 组 中 ,MDM Server for PIM 系统 中 所 有 的 对 象 组 件 
类 型 ,例如 产品 目录 、 产 品 条 目 、 产 品 分 类 等 等 都 会 列 出 来 ,如 图 4. 25 所 示 。 然 后 ,用 户 可 以 
针对 访问 控制 组 加 入 关心 的 角色 ,从 而 形成 组 件 与 角色 的 矩阵 ,针对 该 角色 选择 授予 或 拒绝 
特定 组 件 的 访问 权限 。 
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4.25 访问 控制 组 
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针对 上 文 提出 的 啤酒 产品 管理 的 用 例 , 以 下 从 数据 建 模 、 安 全 模型 建 模 、 业 务 流程 建 模 
三 个 方面 描述 数据 模型 管理 器 的 常用 功能 。 
t 数据 建 模 : 用 户 的 需求 清晰 地 描述 了 产品 目录 的 主要 规范 需求 。 这 个 主要 规范 应 
该 包含 5 个 属性 ,产品 序列 号 是 唯一 确定 产品 单 体 的 主键 。 所 以 ,用 户 可 以 通过 规 
范 控制 台 , 创 建 如 图 4. 26 所 示 的 主要 规范 。 其 中 ,产品 序列 号 是 整 型 ,产品 名 称 和 
产品 的 生产 厂商 是 字符 串 型 ,产品 的 生产 日 期 是 日 期 型 ,核准 合格 是 标志 型 (Flag， 
为 真 或 为 假 ) 。 


名 称 SES 


景 大 出 现 次 数 |1 


类 型 标志 
帮助 URL 
属性 集合 关联 图 


gy 啤酒 产品 主 数据 规范 B 

全 + 产品 序列 号 

+ 产品 和 名称 国 m 

[一 上 *.rAt*r m m Wm 
[-8 + 产品 生产 日 其 m m 
-O ++ 核 准 合格 m 加 


图 4.26 啤酒 产品 主要 数据 规范 


根据 产品 的 分 类 需求 ,应 该 创建 一 个 主要 规范 描述 产品 分 类 的 层次 结构 ,创建 一 个 辅助 
规范 来 描述 属于 北方 产 区 的 产品 单 体 的 质 检 信 息 。 主 要 规范 需要 两 个 字符 串 型 节点 ,地 区 
名 称 和 地 区 简介 ,地 区 名 称 作为 主键 。 辅 助 规范 也 需要 两 个 字符 串 型 属性 节点 , 质 检 日 期 和 
质 检 员 信 息 , 如 图 4.27 所 示 。 


8 + 地 区 名称 
— G ++ 地 区 简介 GB 


— O0 t 质 检 员 信息 E d 
图 4.27 分 类 主要 规范 和 质 检 辅 助 规范 


。 安全 模型 建 模 : 根据 业务 流程 自动 化 管理 需求 中 的 角色 和 用 户 需求 ,系统 管理 员 应 
该 为 产品 经 理 和 质 检 员 各 建立 一 个 账户 (ProManager 和 QA)。 不 妨 授予 产品 经 理 
超级 管理 员 角 色 , 质 检 员 为 一 般 管 理 员 角色 。 注 意 , 为 简单 起 见 ,这 里 不 单独 为 产品 
经 理 和 质 检 员 建立 不 同 的 角色 ,关联 不 同 的 访问 控制 组 ,是 因为 在 协作 区 中 规定 的 

户 访问 权限 会 覆盖 用 户 所 在 的 角色 所 拥有 的 权限 。 图 4.28 是 客户 经 理 的 概要 文 

件 信 息 。 

业务 流程 建 模 : 针对 该 种 业务 需求 ,系统 管理 员 可 以 创建 一 个 工作 流 ,该 工作 流 包 

含 一 个 “与 核准 ?工作 流 步 又 。 产 品 条 目 从 起 始点 进入 自 定义 的 工作 流 步骤 “与 核 
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当前 用 户 的 角色 


回 — a 


图 4.28 客户 经 理 的 用 户 概要 文件 


准 ”, 只 有 得 到 质 检 员 (QA) 以 及 产品 经 理 (ProManager) 的 双重 审核 批准 ,目标 产品 
条 目 才能 通过 审核 步骤 (这 里 假设 产品 经 理 和 质 检 员 要 更 新 核准 通过 的 值 为 真 , 代 
表 操 作者 同意 核准 通过 ) ,进入 工作 流 成 功 步骤 。 如 果 质 检 员 或 者 产品 经 理 任何 一 
方 拒绝 核准 通过 ,那么 该 产品 条 目 将 进入 工作 流失 败 步 又。 图 4. 29、 图 4. 30 给 出 工 
作 流 步骤 和 工作 流 的 定义 。 


编辑 工作 流程 步 李 
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编辑 工作 流程 明细 
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图 4.30 啤酒 类 产品 管理 工作 流 


4.4 主 数据 管理 


主 数据 管理 (Master Data Management. MDM) 描述 了 一 组 规程 .技术 和 解决 方案 ,这 
些 规 程 、 技 术 和 解决 方案 用 于 为 所 有 利益 相关 方 (如 用 户 、 应 用 程序 、 数 据 仓库 、 流 程 以 及 贸 
易 伙 伴 ) 创 建 并 维护 业务 数据 的 一 致 性 、 完 整 性 、 相 关 性 和 精确 性 。 

主 数据 管理 的 关键 就 是 “管理 ”。 主 数据 管理 不 会 创建 新 的 数据 或 新 的 数据 纵向 结构 。 
相反 , 它 提供 了 一 种 方法 ,使 企业 能 够 有 效 地 管理 存储 在 分 布 系统 中 的 数据 。 主 数据 管理 使 
用 现 有 的 系统 , 它 从 这 些 系 统 中 获取 最 新 信息 ,并 提供 了 先进 的 技术 和 流程 ,用 于 自动 、 准 
确 、 及 时 地 分 发 和 分 析 整 个 企业 中 的 数据 ,并 对 数据 进行 验证 。 

主 数据 管理 解决 方案 具有 以 下 特性 : 

。 在 企业 层面 上 整合 了 现 有 纵向 结构 中 的 客户 信息 以 及 其 他 知识 和 深层 次 信息 。 

。 共享 所 有 系统 中 的 数据 ,使 之 成 为 一 系列 以 客户 为 中 心 的 业务 流程 和 服务 。 
实现 对 于 客户 .产品 和 供应 商都 通用 的 主 数据 形式 ,加速 数据 输入 、 检 索 和 分 析 。 
支持 数据 的 多 用 户 管理 ,包括 限制 某 些 用 户 添 加 、 更 新 或 查看 维护 主 数据 的 流程 的 
能 力 。 

。 集成 产品 信息 管理 、 客 户 关系 管理 .客户 数 据 集成 以 及 可 对 主 数据 进行 分 析 的 其 他 

解决 方案 。 

由 于 和 主 数据 管理 关联 的 方法 和 流程 的 运行 与 企业 的 业务 流 系统 及 其 他 系统 彼此 独 
立 , 因 此 这 些 方法 和 流程 不 仅 能 检索 、 更 新 和 分 发 数据 ,还 能 满足 主 数据 的 各 种 用 途 。 主 数 
据 管理 通过 将 数据 与 操作 应 用 程序 实时 集成 来 支持 操作 用 途 。 主 数据 管理 还 通过 使 用 经 过 
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授权 的 流程 来 创建 .定义 和 同步 主 数 据 来 支持 协作 用 途 。 最 后 , 主 数据 管理 通过 事件 管理 工 
具 事先 将 主 数据 推送 至 分 析 应 用 程序 来 支持 分 析 用 途 。 


4.4.1 数据 管理 的 范畴 和 主 数 据 管理 的 概念 


企业 数据 管理 的 内 容 及 范畴 通常 包括 交易 数据 、 主 数据 以 及 元 数据 ,如 图 4. 31 所 示 。 

。 交 易 数据 。 用 于 记录 业务 事件 ,如 客户 的 订单 、 投 诉 记录 、 客 服 申请 等 , 它 往 往 用 于 
描述 在 某 一 个 时 间 点 上 业务 系统 发 生 的 行为 。 

。 主 数据 。 主 数据 则 定义 企业 核心 业务 对 象 ,如 客户 、 产 品 、 地 址 等 ,与 交易 流水 信息 
不 同 , 主 数据 一 旦 被 记录 到 数据 库 中 ,需要 经 常 对 其 进行 维护 ,从 而 确保 其 时 效 性 和 
准确 性 ; 主 数 据 还 包括 关系 数据 ,用 以 描述 主 数据 之 间 的 关系 ,如 客户 与 产品 的 关 
系 、 产 品 与 地 域 的 关系 、 客 户 与 客户 的 关系 、 产 品 与 产品 的 关系 等 。 

。 元 数据 。 即 关于 数据 的 数据 ,用 以 描述 数据 类 型 数据 定义 约束 ,数据 关系 、 数 据 所 
处 的 系统 等 信息 。 


交易 数据 


主 数据 E: 
图 4.31 数据 管理 的 范畴 


主 数据 管理 是 指 一 整套 的 用 于 生成 和 维护 企业 主 数据 的 规范 、 技 术 和 方案 ,以 保证 主 数 
据 的 完整 性 一致 性 和 准确 性 ,如 图 4. 32 所 示 。 主 数据 管理 的 典型 应 用 有 一 客户 数据 管理 


(Customer Data Integration) 和 产品 数据 管理 (Product Information Integration) 。 
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4.32. 主 数据 管理 的 信息 流 
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一 般 来 说 , 主 数 据 管理 系统 从 IT 建设 的 角度 而 言 都 会 是 一 个 相对 复杂 的 系统 , 它 往往 
会 和 企业 数据 仓库 /决策 支持 系统 以 及 企业 内 的 各 个 业务 系统 发 生 关系 ,技术 实现 上 也 会 涉 
及 ETL EALEN 等 多 个 方面 ,如 图 4. 32 所 示 ,一 个 典型 的 主 数据 管理 的 信息 流 为 : 

。 某 个 业务 系统 触发 对 企业 主 数据 的 改动 。 

* 主 数据 管理 系统 将 整合 之 后 完整 .准确 的 主 数据 分 发 给 所 有 有 关 的 应 用 系统 。 

。 主 数据 管理 系统 为 决策 支持 和 数据 仓库 系统 提供 准确 的 数据 源 。 

因此 对 于 主 数据 管理 系统 的 建设 ,要 从 建设 初期 就 考虑 整体 的 平台 框架 和 技术 
以 客户 主 数据 为 例 , 常 见 的 主 数据 域 包括 : 
。 参与 方 (Party) 。 参 与 方 包含 的 范围 是 所 有 与 企业 发 生 了 或 者 发 生 过 正式 业务 关系 
的 任何 合法 的 实体 ,比如 填写 了 投保 单 的 参与 方 。 参与 方 是 分 类 别 的 ,可 以 是 个 人 、 
机 构 和 团体 。 对 于 参与 方 来 说 ,因为 开展 业务 的 需要 ,可 能 要 对 他 们 进行 分 级 ,分 
类 ,比如 VIP, 黑 名 单 等 。 个 人 包括 个 人 基本 属性 .个 人 名 称 、 职 业 性别、 教育 等 自 
然 属 性 ; 机 构 是 指 在 法 律 上 有 登记 的 组 织 实 体 ,可 以 分 为 政府 机 构 、 商 业 机 构 、 非 一 
利 机 构 等 类 别 ; 团体 可 以 有 多 种 形态 ,比如 他 们 可 以 是 家 庭 、 兴 趣 小 组 、 某 个 大 机 构 
中 的 一 部 分 ,或 者 通过 某 种 数据 分 析 技 术 得 出 的 客户 细 分 群体 。 
参与 方 在 业务 中 扮演 的 角色 (Party Role) 。 例 如 ,对 于 保险 行业 而 言 , 可 以 有 : 投保 
人 ,被 保 人 ,受益 人 ,担保 人 ,报案 人 , 核 保 人 ,查勘 员 , 核 赔 人 等 。 
参与 方 之 间 的 关系 (Relationship) 。 例 如 可 以 是 : 夫妻 关系 、 父 子 关系 、 母 女 关 系 、 见 
弟 姐妹 关系 、 总 ( 母 ) 公 司 分 ( 子 ) 公 司 关系 \ 企 业 事 业 单位 隶属 、 上 下 级 关系 等 。 

。 账户 (Account)。 账 户 是 客户 使 用 企业 服务 的 付费 实体 。 

* 地址 (Location)。 它 记录 的 是 每 个 参与 方 可 能 拥有 的 所 有 联系 地 址 ,地 址 的 类 别 包 

括 邮 和 寄 地 址 、E-mail 地 址 ,电信 联络 地 址 等 。 

* 合同 (Contract) 。 参 与 方 与 企业 之 间 的 契约 。 

主 数据 有 几 个 鲜明 的 特点 ,其 中 包括 : 它 是 准确 的 、 集 成 的 , 它 是 跨 业务 部 门 的 ,是 在 各 
个 业务 部 门 被 重复 使 用 的 。 


4.4.2 主 数据 管理 的 意义 


数据 的 集成 共享、 质量、 治理 是 主 数据 管理 的 四 大 要 素 , 如 图 4. 33 Bros , 主 数据 管理 要 
做 的 就 是 从 企业 的 多 个 业务 系统 中 整合 最 核心 的 、 最 需要 共享 的 数据 ( 主 数据 ) ,集中 进行 数 
据 的 清洗 和 丰富 ,并 且 以 服务 的 方式 把 统一 的 、 完 整 的 准确 的 .具有 权威 性 的 主 数据 分 发 给 
全 企业 范围 内 需要 使 用 这 些 数据 的 操作 型 应 用 和 分 析 型 应 用 ,包括 各 个 业务 系统 ,业务 流程 
和 决策 支持 系统 等 。 

主 数据 管理 使 得 企业 能 够 集中 化 管理 数据 ,在 分 散 的 系统 间 保 证 主 数据 的 一 致 性 ,改进 
数据 合 规 性 ,快速 部 署 新 应 用 ,充分 了 解 客户 ,加 速 推出 新 产品 的 速度 。 从 IT 建设 的 角度 ， 
主 数据 管理 可 以 增强 IT 结构 的 灵活 性 ,构建 覆盖 整个 企业 范围 内 的 数据 管理 基础 和 相应 
规范 ,并 且 更 灵活 地 适应 企业 业务 需求 的 变化 。 

以 客户 主 数据 为 例 , 客 户主 数据 是 目前 企业 级 客户 普遍 面临 的 一 个 问题 ,在 大 多 数 企业 
中 ,客户 信息 通常 分 散 于 CRM 等 各 个 业务 系统 中 ,而 每 个 业务 系统 中 都 只 有 客户 信息 的 片 
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断 , 即 不 完整 的 客户 信息 ,但 却 缺乏 企业 级 的 完整 、 统 一 的 单一 客户 视图 ,结果 导致 企业 不 能 
完全 了 解 客户 ,无 法 协调 统一 的 市 场 行 为 ,导致 客户 满意 度 下 降 ,市 场 份额 减少 。 因 此 ,建立 
客户 主 数据 系统 的 目的 在 于 : 

。 整合 并 存储 所 有 业务 系统 和 渠道 的 客户 及 潜在 客户 的 信息 : 一 方面 从 相关 系统 中 
抽取 客户 信息 ,并 完成 客户 信息 的 清洗 和 整合 工作 ,建立 企业 级 的 客户 统一 视图 ; 
另 一 方面 ,客户 主 数据 管理 系统 将 形成 的 统一 客户 信息 以 广播 的 形式 同步 到 其 他 各 
个 系统 ,从 而 确保 客户 信息 的 一 致 。 

为 相关 的 应 用 系统 提供 联机 交易 支持 ,提供 客户 信息 的 唯一 访问 入 口 点 ,为 所 有 应 
用 系统 提供 及 时 和 全 面 的 客户 信息 ; 服务 于 OCRM 系统 ,充分 利用 数据 的 价值 ,在 
所 有 客户 接触 点 上 提供 更 多 具有 附加 价值 的 服务 。 

实现 SOA 的 体系 结构 : 建立 客户 主 数据 系统 之 前 ,数据 被 锁定 在 每 一 个 应 用 系统 
和 流程 中 ,建立 主 数据 管理 系统 之 后 ,数据 从 应 用 系统 中 被 释放 出 来 ,并 且 被 处 理 成 
为 一 组 可 重用 的 服务 ,被 各 个 应 用 系统 调用 。 
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图 4.33 主 数据 管理 的 要 素 


4.4.3 主 数 据 管理 系统 与 数据 仓库 系统 的 关系 


主 数据 管理 系统 与 数据 仓库 系统 是 相辅相成 的 两 个 系统 ,但 二 者 绝 不 是 重复 的 ,也 不 是 
互 斥 的 。 它 们 有 很 多 共同 之 处 : 

。 首 先 ,二 者 对 企业 都 具有 相同 的 价值 ,可 以 减少 数据 元 余 和 不 一 致 性 、 提 升 对 数据 的 
洞察 力 , 二 者 都 是 跨 部 门 的 集中 式 系统 。 

。 其 次 ,二 者 都 依赖 很 多 相同 的 技术 手段 ,都 会 涉及 ETL 技术 ,都 需要 元 数据 管理 ,都 
强调 数据 质量 。 

。 第 三 ,就 是 二 者 建设 手段 类 似 ,都 需要 数据 治理 的 规范 作为 指导 ,都 需要 不 同系 统 、 
不 同 部 门 的 协作 ,需要 统一 的 安全 策略 。 

但 是 , 主 数据 管理 系统 和 数据 仓库 /决策 支持 系统 二 者 之 间 也 存在 很 多 不 同 : 

。 处 理 类 型 不 同 。 主 数据 管理 (MDM) 系统 是 偏 交 易 型 的 系统 , 它 为 各 个 业务 系统 提 
供 联机 交易 服务 ,系统 的 服务 对 象 是 呼叫 中 心 .B2C、CRM 等 业务 系统 ; 而 数据 仓库 
是 属于 分 析 型 的 系统 ,面向 的 是 分 析 型 的 应 用 ,是 在 大 量 历史 交易 数据 的 基础 上 进 
行 多 维 分 析 , 系 统 的 使 用 对 象 是 各 层 领导 和 业务 分 析 、 市 场 销售 预测 人 员 等 。 
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。 实时 性 不 同 。 与 传统 的 数据 仓库 方案 的 批量 ETL 方式 不 同 , 主 数据 管理 系统 在 数 
据 初 始 加 载 阶 段 要 使 用 ETL, 但 在 后 续 运 行 中 要 大 量 依赖 实时 整合 的 方式 来 进行 
主 数据 的 集成 和 同步 。 
。 数 据 量 不 同 。 数 据 仓库 存储 的 是 大 量 的 历史 数据 和 各 个 维度 的 汇总 数据 ,可 能 会 是 
海量 的 ,而 MDM 存储 的 仅仅 是 客户 和 产品 等 信息 。 
虽然 主 数据 管理 系统 和 数据 仓库 系统 异同 共存 ,但 是 二 者 却 有 着 紧密 的 联系 ,并 且 可 以 
互相 促进 、 互 为 补充 。 举 例 而 言 ,数据 仓库 系统 的 分 析 结 果 可 以 作为 衍生 数据 输入 到 MDM 
系统 ,从 而 使 MDM 系统 能 够 更 好 地 为 操作 型 CRM 系统 服务 。 以 航空 公司 为 例 ,客户 的 主 
数据 模型 大 致 可 以 分 为 三 部 分 : 
首先 包括 客户 基本 信息 和 偏好 信息 。 
。 客户 基本 信息 


个 人 及 公司 信息 

消费 者 市 场 状 况 

常 旅客 会 员 卡 号 ,状态 ,及 累计 里 程 等 
客户 间 关 系 ( 个 体 -个 体 ,个 体 -公司 ) 
联系 地 址 ,包括 电话 、 电 子 邮 件 等 


客户 偏好 信息 


餐 食 偏好 
是 否 吸 烟 
座位 偏好 
机 型 偏好 
公务 舱位 偏好 
旅行 舱位 偏好 
休息 室 服务 偏好 


除了 这 两 部 分 之 外 ,还 可 以 从 数据 仓库 系统 中 提取 相关 的 信息 ,作为 客户 主 数据 的 衍生 
信息 部 分 ,从 而 更 好 地 ,全 方位 地 描述 客户 特征 。 
。 衍生 信 息 


本 月 飞行 里 程 

年 度 飞行 里 程 (最 近 12 个 月 内 ) 
提前 预订 倾向 

习惯 预订 模式 

使 用 自主 服务 倾向 

上 次 预订 使 用 的 信用 卡号 
累计 /本 月 转 签 /取消 航班 次 数 
转 签 航班 倾向 

取消 航班 倾向 

No Show 倾向 等 
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4.4.4 主 数据 管理 系统 和 ODS 的 关系 


在 某 些 情况 下 , 主 数据 管理 系统 和 ODS 系统 可 能 容易 被 混淆 ,的 确 ,从 实时 上 来 看 , 主 
数据 管理 系统 和 ODS 系统 存储 的 都 是 实时 数据 ,但 是 二 者 存储 的 数据 内 容 是 全 然 不 同 的 ， 
主 数据 管理 系统 中 不 存储 交易 数据 ,比如 银行 客户 的 交易 流水 信息 是 不 应 该 放 在 主 数据 管 
理 系统 中 进行 管理 的 ,这 是 MDM 与 ODS 的 一 个 很 大 区 别 。 举 一 个 航空 公司 的 例子 ,比如 
某 个 客户 在 电子 商务 网 站 上 订 了 一 张 机 票 ,产生 一 个 订单 ,然后 他 又 通过 呼叫 中 心 要 求 改 
签 , 这 个 场景 中 ,两 个 系统 之 间 要 实现 客户 信息 和 订单 信息 的 共享 ,其 中 客户 信息 共享 通过 
MDM 系统 来 实现 ,而 订单 信息 则 需要 采用 ODS 或 其 他 手段 进行 共享 ,这 里 是 不 推荐 把 此 
类 信息 交 由 MDM 系统 来 管理 的 。 


4.4.5 主 数据 管理 解决 方案 介绍 
目前 业界 比较 常见 的 主 数据 管理 解决 方案 主要 可 以 分 为 3 类 : 


第 一 是 依托 专业 套装 软件 来 实现 主 数据 管理 ,这 类 方案 是 作为 套装 软件 的 一 部 分 ， 
主要 是 为 套装 软件 的 其 他 模块 提供 服务 的 ,因此 ,通常 功能 都 缺乏 完善 性 。 

还 有 一 类 是 侧重 于 分 析 型 应 用 的 主 数据 管理 ,这 类 方案 在 数据 实时 同步 以 及 面向 交 
易 型 应 用 时 通常 缺乏 整体 方案 的 完整 性 。 

再 有 一 类 就 是 专注 于 主 数据 管理 的 中 立 的 、 完 整 的 解决 方案 ,这 一 类 应 用 独立 于 套 
装 软件 ,不 仅 具 有 整体 架构 的 完整 性 和 先进 性 ,从 功能 上 讲 往往 也 最 为 完善 ,除了 具 
有 比较 完整 的 数据 模型 (Data Model) 之 外 ,还 会 提供 广泛 的 集成 性 ,具备 先进 的 机 
制 实现 数据 同步 ,并 且 可 以 对 外 提供 多 种 预 置 的 主 数据 服务 被 外 部 交易 系统 调用 ， 
从 而 使 系统 具有 很 强 的 实时 操作 性 ,同时 还 强调 主 数据 管理 、 主 数据 质量 控制 以 及 
主 数据 维护 的 手段 和 规范 性 。 


4.4.6 企业 主 数据 管理 系统 永和 辑 架 构 


在 一 个 完整 的 主 数据 管理 解决 方案 中 ,除了 主 数据 管理 的 核心 服务 组 件 之 外 通常 还 会 
涉及 企业 元 数据 管理 ` 企 业 信息 集成 `ETL、 数 据 分 析 和 数据 仓库 以 及 EAI/ESB 等 其 他 各 
种 技术 和 服务 组 件 。 

其 中 主 数据 管理 服务 又 包括 如 下 一 些 主要 的 服务 组 件 。 


Interface Services: 为 企业 中 需要 主 数 据 的 所 有 业务 系统 提供 各 种 服务 接口 ,通过 
实时 的 ,批量 的 接口 可 以 读 取 或 者 修改 主 数据 ,这 些 接口 包括 Batch, Web Services, 
XML Interface, Messaging Interface, Publish/Subscribe, Import/Export Services, 
Data Standardization Interface. Directory Integration 等 。 除 了 这 些 标准 的 技术 接口 
之 外 ,对 于 某 些 专 有 系统 还 提供 适配器 (Adapter) 接 口 ,通过 适配器 接口 可 以 和 一 些 
特有 的 系统 做 接口 ,例如 企业 中 的 传统 (Legacy) 应 用 系统 或 者 SAP 等 打包 应 用 。 

Lifecycle Management Services; 履行 针对 主 数据 的 CRUD 操作 ,执行 对 主 数据 存 
储 库 中 的 数据 进行 更 新 . 存 取 和 管理 时 的 业务 逻辑 , 除 此 之 外 , 它 还 负责 维护 主 数据 
的 衍生 信息 ,例如 客户 之 间 的 关系 、 客 户 的 偏好 、 客 户 在 各 种 客户 服务 渠道 上 的 行为 
轨迹 等 。Lifecycle Management Services 贯穿 整个 主 数 据 管 理 的 生命 周期 , 它 利 用 
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Data Quality Management Services 来 确保 数据 质量 .利用 Master Data Event 
Management Services 来 捕获 各 种 主 数据 变化 等 相关 的 事件 ,以 及 利用 Hierarchy 
and Relationship Management Services 用 来 维护 数据 实体 之 间 的 关系 和 层次 。 
Data Quality Management Services: 确保 主 数据 的 质量 和 标准 化 ,这 在 主 数据 管理 
解决 方案 中 是 一 个 非常 重要 的 组 件 ,在 从 各 个 业务 系统 获取 数据 之 后 ,要 对 数据 进 
行 清洗 和 验证 ,例如 对 于 地 址 而 言 ,要 弥补 地 址 的 缺失 、 地 市 的 缺失 、 邮 编 的 缺失 、 进 
行 地 址 的 标准 化 等 。 对 于 其 他 数据 要 进行 非 空 检查 、 外 键 检查 、 数 据 过 滤 等 。 然 后 
要 对 数据 进行 匹配 /重复 识别 .自动 进行 基于 规则 的 合并 /去 重 、 交 叉 验 证 等 ,并 且 还 
要 遵从 企业 的 数据 管控 规范 和 流程 。 它 可 以 是 Master Data Management Services 
的 一 个 内 部 组 件 , 也 可 以 调用 整个 企业 的 Information Integrity Services 来 实现 。 
Authoring Services: 依据 数据 管控 流程 ,定义 和 扩展 企业 的 主 数据 模型 。 
Hierarchy Relationship and Management Services: 定义 数据 实体 的 层次 
(Hierarchy)、 分 组 (Grouping)、 关 系 (Relationship) 版 本 (Version) 等 。 

Master Data Event Management Services: 捕获 事件 并 且 触 发 相应 的 操作 ,包括 事 
件 发 现 、 事 件 管理 和 通知 功能 , 它 在 主 数据 管理 系统 和 业务 系统 之 间 进 行 数据 同步 


时 起 到 至 关 重 要 的 作用 。 
e Base Services; 提供 通用 服务 ,包括 安全 控制 ,错误 处 理 、 交 易 日 志 、 事 件 日 志 等 
功能 。 


Master Data Repository: 主 数据 存储 库 , 包括 Metadata, Master Data, History 
Data, Reference Data 等 。 

下 面 介 绍 两 个 这 些 迎 辑 组 件 之 间 的 协作 场景 : 

场景 1: 初始 数据 加 载 

D 源 数据 从 外 部 业务 系统 及 EDW 系统 中 通过 批 处 理 方式 复制 到 磁带 ; 

© 数据 被 加 载 到 Staging DB, 进 行 数据 质量 分 析 ; 

(3) Data Quality Management Services 对 数据 进行 清洗 匹配、 标准 化 等 ; 

(D ETL Transform and Load Services 对 合格 数据 进行 转换 并 准备 好 加 载 数据 ; 

(& Master Data Interface Services 接收 批 处 理 更 新 请 求 ,调用 Lifecycle Management 
Update Service 进行 数据 的 批量 更 新 ; 

Lifecycle Management Update Service 调用 Hierarchy & Relationship Management 
Services 和 Base Services 更 新 主 数据 库 。 


场景 2: 主 数据 库 更 新 ,然后 同步 到 各 业务 系统 
CD. 某 业 务 系统 发 起 一 个 创建 主 数据 的 交易 ,该 业务 系统 将 交易 数据 以 消息 的 形式 发 送 
到 消息 队列 ， 


@ MDM Interface Services 捕获 该 消息 ,进行 消息 解析 ,并 调用 Security and Privacy 
Services 进行 权限 验证 ; 

@ MDM Interface Services 调用 Lifecycle Mgmt. Update Service; 

(D Lifecycle Mgmt. Update Service 再 调用 Data Quality Management Services 进行 数 
据 的 清洗 和 标准 化 ; 

© Update Service 调用 Search Services 发 现 该 主 数据 已 经 存在 ,确认 这 是 对 已 有 主 数 
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据 的 更 新 操作 ; 

Update Service 通过 调用 外 部 系统 对 数据 进行 扩充 ; 

Update Service 在 更 新 主 数据 库 之 前 调用 Event Management Services; 

(8 Event Management Services 确认 是 否 需要 涉及 数据 管控 方面 的 处 理 ; 

(9) Update Service 调用 Hierarchy & Relationship Management Services 并 且 更 新 主 
数据 库 ; 

四 Audit Logging Services 记录 相应 交易 日 志和 历史 数据 ; 

QD MDM Lifecycle Management Service 调用 MDM Interface Services 返回 更 新 处 
理 请 求 ; 

D 源 业务 系统 接收 到 处 理 请 求 之 后 ,利用 MDM 系统 发 回来 的 数据 对 本 地 的 应 用 系统 
数据 库 进行 更 新 操作 。 

其 他 所 有 需要 主动 被 更 新 的 相关 业务 系统 都 会 接收 到 更 新 后 的 最 新 数据 。 


4.5 元 数据 管理 


4.5.1 明确 元 数据 管理 策略 


在 最 开始 的 时 候 , 元 数据 (Meta Data) 是 指 描述 数据 的 数据 ,通常 由 信息 结构 的 描述 组 
成 , 随 着 技术 的 发 展 ,元 数据 内 涵 有 了 非常 大 的 扩展 ,比如 UML 模型 ,数据 交易 规则 ,用 
Java、. NET、C++ 等 编写 的 APIs、 业 务 流程 和 工作 流 模型 .产品 配置 描述 和 调 优 参数 以 及 各 
种 业务 规则 、 术 语 和 定义 等 。 在 大 数据 时 代 , 元 数据 还 应 该 包括 对 各 种 新 数据 类 型 的 描述 ， 
如 对 位 置 、 名 字 、 用 户 点 击 次 数 、 音 频 、 视 频 、 图 片 . 各 种 无 线 感知 设备 数据 和 各 种 监控 设备 数 
据 等 的 描述 等 。 元 数据 通常 分 为 业务 元 数据 、 技 术 元 数据 和 操作 元 数据 等 。 业 务 元 数据 主 
要 包括 业务 规则 定义、 术语 、 术 语 表 、 运 算法 则 和 系统 使 用 业务 语言 等 ,主要 使 用 者 是 业务 
用 户 。 技 术 元 数据 主要 用 来 定义 信息 供应 链 (Information Supply Chain,ISC) 各 类 组 成 部 
分 元 数据 结构 ,具体 包括 各 个 系统 表 和 字段 结构 、 属 性 、 出 处 依赖 性 等 ,以 及 存储 过 程 、 函 
数 .序列 等 各 种 对 象 。 操 作 元 数据 是 指 应 用 程序 运行 信息 ,比如 其 频率 .记录 数 以 及 各 个 组 
件 的 分 析 和 其 他 统计 信息 等 。 

从 整个 企业 层面 来 说 ,各 种 工具 软件 和 应 用 程序 越 来 越 复杂 ,相互 依存 度 逐 年 增加 , 相 
应 的 追踪 整个 信息 供应 链 各 组 件 之 间 数 据 流动 、 了 解数 据 元 素 含义 和 上 下 文 的 需求 越 来 越 
强烈 。 在 从 应 用 议程 往 信 息 议程 的 转变 过 程 中 ,元 数据 管理 也 逐渐 从 局 部 存储 和 管理 转向 
共享 。 从 总 量 上 来 看 ,整个 企业 的 元 数据 越 来 越 多 , 仅 现 有 的 数据 模型 中 就 包含 了 成 千 上 万 
的 表 , 同 时 还 有 更 多 的 模型 等 着 上 线 , 随 着 大 数据 时 代 的 来 临 ,企业 需要 处 理 的 数据 类 型 越 
来 越 多 。 为 了 企业 更 高 效 地 运转 ,企业 需要 明确 元 数据 管理 策略 和 元 数据 集成 体系 结构 , 依 
托 成 熟 的 方法 论 和 工具 实现 元 数据 管理 ,并 有 步骤 地 提升 其 元 数据 管理 成 熟 度 。 

为 了 实现 大 数据 治理 ,构建 智慧 的 分 析 洞 察 ,企业 需要 实现 贯穿 整个 企业 的 元 数据 集 
成 ,建立 完整 且 一 致 的 元 数据 管理 策略 ,该 策略 不 仅仅 针对 某 个 数据 仓库 项 目 、 业 务 分 析 项 
目 、 某 个 大 数据 项 目 或 某 个 应 用 单独 制定 一 个 管理 策略 ,而 是 针对 整个 企业 构建 完整 的 管理 
策略 。 元 数据 管理 策略 也 不 是 技术 标准 或 某 个 软件 工具 可 以 取代 的 ,无 论 软件 工具 功能 多 
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强大 都 不 能 完全 蔡 代 一 个 完整 一 致 的 元 数据 管理 策略 ,反而 在 定义 元 数据 集成 体系 结构 以 
及 选 购 元 数据 管理 工具 之 前 需要 定义 元 数据 管理 策略 。 

元 数据 管理 策略 需要 明确 企业 元 数据 管理 的 愿景 目标、 需求 .约束 和 策略 等 ,依据 企业 
自身 当前 以 及 未 来 的 需要 确定 要 实现 的 元 数据 管理 成 熟 度 以 及 实现 目标 成 熟 度 的 路 线 图 ， 
完成 基础 本 体 、 领 域 本 体 、 任 务 本 体 和 应 用 本 体 的 构建 ,确定 元 数据 管理 的 安全 策略 .版 本 控 
制 .元 数据 订阅 推送 等 。 企 业 需 要 对 业务 术语 .技术 术语 中 的 敏感 数据 进行 标记 和 分 类 , 制 
定 相 应 的 数据 隐私 保护 政策 ,确保 企业 在 隐私 保护 方面 符合 当地 的 法 律 法 规 ,如 果 企 业 有 跨 
国 数据 交换 ,元 数据 交换 的 需求 ,也 要 遵循 涉及 国家 的 法 律 法 规 要 求 。 企 业 需 要 保证 每 个 元 
数据 元 素 在 信息 供应 链 每 个 组 件 中 语义 上 保持 一 致 ,也 就 是 语义 等 效 (Semantic 
Equivalence)。 语 义 等 效 程 度 可 以 强 也 可 以 弱 , 在 一 个 元 数据 集成 方案 中 ,语义 等 效 (平均 ) 
程度 越 强 则 整个 方案 的 效率 越 高 。 语 义 等 效 的 强 弱 程度 直接 影响 元 数据 的 共享 和 重用 。 


4.5.2 元 数据 集成 体系 结构 


在 明确 了 元 数据 管理 策略 后 需要 确定 实现 该 管理 策略 所 需 的 技术 体系 结构 , 即 元 数据 
集成 体系 结构 。 各 个 企业 的 元 数据 管理 策略 和 元 数据 管理 成 熟 度 差别 较 大 ,因此 元 数据 集 
成 体系 结构 也 多 种 多 样 。 大 体 上 元 数据 集成 体系 结构 可 以 分 为 点 对 点 的 元 数据 集成 体系 结 
构 .中 央 辐 射 式 元 数据 体系 结构 .基于 公共 仓库 元 模型 (Common Warehouse MetaModel， 
CWM) 驱 动 的 点 对 点 元 数据 集成 体系 结构 .基于 CW M 模型 驱动 的 中 央 存 储 库 元 数据 集成 
体系 结构 、 分 布 式 (联邦 式 ) 元 数据 集成 体系 结构 和 层次 / 星 型 元 数据 集成 体系 结构 等 。 

针对 信息 供应 链 中 不 同 的 组 件 ,为 了 实现 跨 组 件 的 元 数据 交换 和 集成 ,最 开始 人 们 采用 
点 对 点 的 方式 进行 ,也 就 是 每 一 对 组 件 之 间 通 过 一 个 独立 的 元 数据 桥 (Metadata Bridge) 进 
行 元 数据 交换 , 桥 一 般 是 双向 的 能 够 理解 两 个 方向 的 元 数据 映射 。 点 对 点 的 元 数据 集成 体 
系 结构 帮助 用 户 实现 了 跨 企 业 的 元 数据 集成 和 元 数据 交换 ,对 提升 信息 化 水 平 提供 了 巨大 
帮助 。 这 种 体系 结构 在 应 用 过 程 中 ,也 暴露 了 很 多 问题 ,比如 元 数据 桥 的 构建 工作 量 和 耗 时 
都 非常 大 ,对 中 间 件 厂商 .应 用 厂商 、 集 成 商 和 用 户 来 说 都 是 一 个 巨大 的 挑战 ,而 且 构建 元 数 
据 桥 还 必须 具有 所 有 者 的 元 数据 模型 和 接口 的 详细 信息 。 构 建 完成 的 桥 很 多 时 候 无 法 在 构 
建 其 他 元 数据 桥 时 进行 重用 ,因此 开发 和 维护 费用 大 幅度 增加 ,用 户 投 资 回报 率 (ROD 不 
高 。 以 动态 数据 仓库 为 例 ,其 点 对 点 的 元 数据 集成 体系 结构 如 图 4. 34 所 示 , 信 息 供 应 链 各 
组 件 之 间 的 双向 箭头 表示 全 部 的 数据 流 , 实 心 箭 头 表示 不 同 的 元 数据 桥 和 与 之 关联 的 元 数 
据 流 。 

通过 使 用 中 央 元 数据 存储 库 (Central Metadata Repository) 取 代 各 个 工具 软件 和 应 用 
程序 之 间 的 点 对 点 连接 方式 , 改 成 中 央 元 数据 存储 库 与 各 个 工具 软件 和 应 用 程序 实现 元 数 
据 交 换 的 访问 层 (也 是 一 种 桥 ) ,可 以 有 效 降 低 总 成 本 ,减少 建立 点 对 点 元 数据 桥 的 工作 , 提 
高 投资 回报 率 。 信 息 供 应 链 各 组 件 可 以 从 存储 库 访 问 元 数据 ,不 必 与 其 他 产品 进行 点 对 点 
交互 。 这 种 使 用 中 央 元 数据 存储 库 进行 元 数据 集成 方式 就 是 中 央 辆 射 式 元 数据 体系 结构 
(Hub-and-Spoke Meta Data Architecture) ,如 图 4. 35 所 示 。 由 于 特定 的 元 数据 存储 库 是 围 
绕 其 自身 的 元 模型 接口 和 交付 服务 建立 的 ,所 以 仍 需 要 建立 元 数据 桥 实现 与 ISC 各 组 件 
的 互相 访问 。 

采用 模型 驱动 的 元 数据 集成 方法 (比如 使 用 CWM) 可 以 有 效 降低 元 数据 集成 的 成 本 和 
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图 4.35 中 央 辐 射 式 元 数据 体系 结构 


复杂 度 ,无 论点 对 点 元 数据 集成 体系 结构 还 是 中 央 辐 射 式 元 数据 集成 体系 结构 都 可 以 因此 
受益 。 在 点 对 点 体系 结构 中 ,通过 使 用 基于 模型 的 方法 可 以 不 必 在 每 一 对 需要 集成 的 产品 
之 间 构 建 元 数据 桥 , 每 个 产品 只 需要 提供 一 个 适配器 (Adapter) 即 可 实现 各 个 产品 之 间 的 元 
数据 交换 ,适配器 既 了 解 公共 的 元 模型 也 了 解 本 产品 元 模型 的 内 部 实现 。 如 图 4. 36 所 示 ， 
基于 CWM 模型 驱动 点 对 点 元 数据 集成 体系 结构 使 用 通用 元 模型 ,不 再 需要 在 各 个 产品 间 
建立 元 数据 桥 ,在 各 个 产品 之 间 通 过 适配器 实现 了 语义 等 价 性 。 

如 图 4. 37 所 示 ,在 基于 模型 驱动 (比如 CWM) 的 中 央 辐 射 式 元 数据 体系 结构 中 ,中 央 
存储 库 包 含 公共 元 模型 和 整个 领域 (Domain) 用 到 的 该 元 模型 的 各 个 实例 (模型 ) 存储 库 自 
身 元 模型 及 其 实例 、 理 解 元 模型 (公共 元 模型 和 自身 元 模型 ) 的 适配器 层 , 当 然 存 储 库 也 可 以 
直接 实现 公共 元 模型 的 某 些 内 部 表示 。 

如 图 4. 38 所 示 ,这 种 体系 架构 是 基于 CWM 模型 驱动 的 中 央 存 储 库 元 数据 集成 体系 结 
构 的 一 个 变种 ,两 个 中 央 辐 射 式 的 拓扑 结构 通过 各 自 的 元 数据 存储 库 连 接 起 来 ,也 被 称 为 分 
Hi XX (Distributed) 8X9 ( Federated) 体系 结构 。 两 个 元 数据 存储 库 之 间 通 过 元 数据 桥 连 
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图 4.36 基于 CWM 模型 驱动 的 点 对 点 元 数据 集成 体系 结构 
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图 4.37 基于 CWM 模型 驱动 的 中 央 存 储 库 元 数据 集成 体系 结构 
接 , 两 个 存储 库 可 以 使 用 相同 的 元 模型 和 接口 ,也 可 以 使 用 不 同 的 元 模型 和 接口 。 建 立 分 布 
式 元 数据 集成 体系 结构 的 原因 有 很 多 种 ,比如 企业 基于 多 个 区 域 单独 部 署 自己 的 应 用 ,每 个 
区 域 有 自己 的 数据 中 心 。 

如 图 4. 39 所 示 , 这 种 体系 结构 是 分 布 式 体系 结构 的 变 体 , 根 存储 库 实现 了 元 模型 的 
公共 部 分 ( 横 跨 整个 企业 ) ,叶子 存储 库 实现 了 一 个 或 多 个 特定 的 公共 元 模型 子 集 , 并 只 
保存 这 些 自己 所 对 应 的 元 数据 实例 。 特 定 客户 可 以 主要 访问 其 感 兴趣 的 元 数据 所 在 的 
叶子 存储 库 ,也 可 以 访问 其 他 叶子 存储 库 和 根 存 储 库 。 这 种 体系 结构 被 称 为 层次 或 星 型 
拓扑 结构 。 
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图 4.38 分 布 式 (联邦 式 ) 元 数据 集成 体系 结构 
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图 4.39 层次 或 星 型 元 数据 集成 体系 结构 
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4.5.3 实施 元 数据 管理 


在 明确 了 元 数据 管理 策略 和 元 数据 集成 体系 结构 之 后 ,企业 可 以 根据 需要 选择 合适 的 
业务 元 数据 和 技术 元 数据 管理 工具 .并 制定 相应 的 元 数据 管理 制度 进行 全 面 的 元 数据 管理 。 
比如 可 以 使 用 IBM InfoSphere Business Glossary 进行 业务 元 数据 的 管理 ,使 用 IBM 
InfoSphere Metadata Workbench 作为 元 数据 管理 统一 工具 并 进行 图 形 化 的 元 数据 分 析 。 

大 数据 扩大 了 数据 的 容量 、 速 度 和 多 样 性 ,给 元 数据 管理 带 来 了 新 的 挑战 。 在 构建 关系 
型 数据 仓库 动态 数据 仓库 和 关系 型 数据 中 心 时 进行 元 数据 管理 ,有 助 于 保证 数据 被 正确 地 
使 用 、 重 用 并 满足 各 种 规定 。 同 样 ,对 大 数据 来 说 ,元 数据 管理 过 程 中 出 现 的 任何 错误 ,都 会 
导致 数据 重复 .数据 质量 差 和 无 法 访问 关键 信息 等 问题 。 随 着 大 数据 技术 在 企业 中 的 应 用 
越 来 越 广泛 ,企业 需要 在 原 有 的 元 数据 管理 策略 中 增加 大 数据 相关 的 内 容 。 通 常 , 大 数据 分 
析 是 受用 例 驱 动 的 ,企业 可 以 通过 梳理 大 数据 用 例 的 方式 逐步 完善 大 数据 的 元 数据 管理 。 

针对 大 数据 的 业务 元 数据 ,依旧 可 以 通过 构建 基础 本 体 、 领 域 本 体 、 任 务 本 体 和 应 用 本 
体 等 方式 来 实现 。 通 过 构建 基础 本 体 ,实现 对 级 别 且 通 用 的 概念 的 描述 以 及 概念 之 间 关 系 
进行 描述 ; 通过 构建 领域 本 体 ,实现 对 于 领域 的 定义 ,并 确定 该 领域 内 共同 认可 的 词汇 、 词 
汇 业务 含义 和 对 应 的 信息 资产 等 ,提供 对 该 领域 知识 的 共同 理解 ; 通过 构建 任务 本 体 ,实现 
任务 元 素 及 其 之 间 关 系 的 规范 说 明 或 详细 说 明 ; 通过 构建 应 用 本 体 ,实现 对 特定 应 用 的 概 
念 描述 ,其 是 依赖 于 特定 领域 和 任务 的 。 这 样 就 通过 构建 各 种 本 体 ,在 整个 企业 范围 提供 一 
个 完整 的 共享 词汇 表 , 保 证 每 个 元 数据 元 素 在 信息 供应 链 中 每 个 组 件 的 语义 上 保持 一 致 , 实 
现 语义 等 效 。 

为 了 实现 信息 供应 链 中 各 个 组 件 元 数据 的 交互 和 集成 ,大 数据 平台 的 元 数据 集成 体系 
结构 依然 可 以 采用 基于 模型 驱动 的 中 央 辐 射 式 元 数据 体系 结构 。 对 大 数据 平台 中 的 结构 化 
数据 的 元 数据 管理 可 以 遵循 公共 仓库 元 模型 (CWM) 构 建 元 数据 体系 结构 ,以 便 实 现 各 个 
组 件 间 元 数据 的 交互 ; 对 大 数据 平台 中 的 半 结 构 化 和 非 结 构 化 数据 的 元 数据 管理 ,因为 业 
内 还 没有 通用 的 公共 元 模型 ,企业 可 以 尝试 采用 基于 自 定义 模型 驱动 的 方式 构建 中 央 辐 射 
式 元 数据 体系 结构 。 

简单 来 说 ,企业 可 以 尝试 以 下 步骤 进行 大 数据 的 元 数据 管理 : 

(1) 考虑 到 企业 可 以 获取 数据 的 容量 和 多 样 性 ,应 该 创建 一 个 体现 关键 大 数据 业务 术 
语 的 业务 定义 词 库 ( 本 体 ) ,该 业务 定义 词 库 不 仅仅 包含 结构 化 数据 ,还 可 以 将 半 结 构 化 和 非 
结构 化 数据 纳入 其 中 。 

(2) 及 时 跟 进 和 理解 各 种 大 数据 技术 中 的 元 数据 ,提供 对 其 连续 、 及 时 的 支持 ,比如 
MPP 数据 库 、 流 计算 引擎 .Apache Hadoop/ 企 业 级 Hadoop, NoSQL 数据 库 以 及 各 种 数据 
治理 工具 如 审计 /安全 工具 ,信息 生命 周期 管理 工具 等 。 

(3) 对 业务 术语 中 的 敏感 大 数据 进行 标记 和 分 类 ,并 执行 相应 的 大 数据 隐私 政策 。 

CD 将 业务 元 数据 和 技术 元 数据 进行 链接 ,可 以 通过 操作 元 数据 (如 流 计算 或 ETL T. 
有 具 所 生成 的 数据 ) 监 测 大 数据 的 流动 ; 可 以 通过 数据 世系 分 析 ( 血 缘分 析 ) 在 整个 信息 供应 
链 中 实现 数据 的 正 向 追溯 或 逆向 追溯 ,了 解数 据 都 经 历 了 哪些 变化 ,查看 字段 在 信息 供应 链 
各 组 件 间 转换 是 否 正确 等 ; 可 以 通过 影响 分 析 了 解 具体 某 个 字段 的 变更 会 对 信息 供应 链 中 
其 他 组 件 的 字段 造成 哪些 影响 等 。 
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(5) 扩展 企业 现 有 的 元 数据 管理 角色 ,以 适应 大 数据 治理 的 需要 ,比如 可 以 扩充 数据 治 
理 管理 者 .元 数据 管理 者 ,数据 主管 .数据 架构 师 以 及 数据 科学 家 的 职责 ,加 入 大 数据 治理 的 
相关 内 容 。 

在 实施 元 数据 管理 的 过 程 中 ,可 以 参照 元 数据 管理 的 成 熟 度 模型 确定 企业 当前 元 数据 
管理 所 在 层次 ,并 根据 业务 需要 制定 路 线 图 实现 元 数据 管理 水 平 的 提升 。 元 数据 管理 成 熟 
度 模型 具体 如 图 4. 40 所 示 。 


IE 1 
务 i 元 数据 管理 
价 Í QUEEN] 高 度 自 动 化 
li 1 信息 议程 
' u aa 
1 元 数据 驱动 管理 “| 构建 元 模型 以 及 元 元 模型 ， 
! 优化 元 数据 管理 
1 
1 
" i zen 增强 元 数据 集中 控制 ， 
S a! EEE E 
Š ! 
( | 元 数据 局 部 产生 和 获取 ， 
! 但 会 集中 到 中 央 存储 库 进行 存储 
人 人 
应 用 议程 TEO ME | 
i 
元 数据 分 散 于 日 常 的 | APERIRE | 
业务 和 职能 管理 中 ' 
初始 状态 i 
i 
| 元 数据 管理 成 部 度 _ 


图 4.40 元 数据 管理 成 熟 度 模型 


根据 元 数据 管理 的 成 熟 度 ,大 体 可 以 分 成 6 个 级 别 。 

(1) L0: 初始 状态 

元 数据 分 散 于 日 常 的 业务 和 职能 管理 中 ,由 某 个 人 或 某 一 组 人 员 在 局 部 产生 或 获取 ,并 
在 局 部 使 用 ,其 他 人 如 果 想 获得 该 元 数据 需要 找到 相应 的 人 进行 沟通 获取 。 

(2) L1: 从 属于 业务 系统 

在 这 个 阶段 , 随 着 各 个 业务 系统 自动 化 构建 完成 ,相应 的 元 数据 也 随 着 需求 整理 ,设计 、 
开发 .实施 和 维护 等 过 程 被 各 个 业务 系统 孤立 地 全 部 或 部 分 管理 起 来 。 业 务 元 数据 可 能 分 
散在 各 种 业务 规章 ,流程 规定 .需求 需求 分 析 和 概要 设计 等 文档 以 及 业务 系统 中 ,技术 元 数 
据 可 能 分 散在 详细 设计 、 模 型 设计 和 部 署 方案 等 各 种 文档 和 各 种 中 间 件 以 及 业务 系统 中 。 
由 于 各 个 业务 系统 处 于 一 个 个 竖井 之 中 ,元 数据 之 间 互 通 互联 困难 ,如 果 需 要 获取 其 他 系统 
的 元 数据 ,除了 调 阅 各 种 文档 外 ,对 分 散在 各 种 中 间 件 和 业务 系统 中 的 技术 元 数据 需要 通过 
桥 (Bridge) 的 方式 实现 互通 互联 。 

(3) L2: 元 数据 统一 存储 

元 数据 依然 在 局 部 产生 和 获取 ,但 会 集中 到 中 央 存 储 库 进行 存储 ,业务 元 数据 会 手工 录 
入 到 中 央 存 储 库 中 ,技术 元 数据 分 散在 文档 中 的 部 分 也 通过 手工 录入 到 中 央 存 储 库 中 ,而 散 
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落 在 各 个 中 间 件 和 业务 系统 中 的 技术 元 数据 则 通过 桥 (Bridge) 的 方式 被 读 取 到 中 央 存 储 库 
中 。 业 务 元 数据 和 技术 元 数据 之 间 全 部 或 部 分 通过 手工 方式 做 了 关联 。 中 央 存 储 库 的 构 
建 , 使 得 元 数据 在 整个 企业 层面 可 被 感知 和 搜索 , 极 大 地 方便 了 企业 获取 和 查找 元 数据 。 缺 
点 是 ,元 数据 仍然 在 各 业务 系统 上 维护 ,然后 更 新 到 中 央 存 储 库 ,各 业务 竖井 之 间 仍 然 使 用 
不 同 的 命名 法 ,经 常会 造成 相同 的 名 字 代 表 不 同意 义 的 事情 ,而 同一 件 事情 则 使 用 了 多 个 不 
同 的 名 字 , 有 些 没有 纳入 业务 系统 管理 的 元 数据 则 容易 缺失 。 元 数据 没有 有 效 的 权限 管理 ， 
局 部 元 数据 更 改 后 也 不 自动 通知 其 他 人 。 

(4) L3: 元 数据 集中 管理 

L3 在 L2 的 基础 上 做 了 改进 ,增强 了 元 数据 的 集中 控制 ,局 部 业务 单元 或 开发 小 组 如 不 
事先 通知 其 他 人 ,将 无 法 对 元 数据 进行 修改 。 局 部 元 数据 的 修改 完成 后 将 会 广播 给 其 他 人 。 
和 其 他 中 间 件 和 应 用 系统 的 交互 ,仍然 通过 桥接 的 方式 进行 ,中 央 存 储 库 中 的 业务 元 数据 和 
技术 元 数据 之 间 还 是 通过 手工 方式 进行 映射 。 

(5) L4: 元 模型 驱动 管理 

在 L3 的 基础 上 ,通过 构建 元 模型 以 及 元 元 模型 ,优化 各 业务 单元 之 间 的 各 种 冲突 和 各 
种 副本 ,创建 ,管理 和 共享 业务 词汇 表 和 分 类 系统 (基于 主题 领域 的 层次 结构 )。 业 务 词汇 表 
(业务 元 数据 ) 包 含 与 企业 相关 的 词汇 .词汇 业务 含义 以 及 词汇 与 信息 资产 (技术 元 数据 ) 的 
关系 ,可 以 有 效 帮 助 企 业 用 户 了 解 其 业务 元 数据 和 技术 元 数据 对 应 的 业务 含义 。 分 类 是 基 
于 主题 领域 的 层次 结构 ,用 以 对 业务 术语 归 类 。 和 其 他 中 间 件 和 应 用 系统 的 交换 ,通过 基于 
CWM 的 适配器 方式 进行 连接 。 

(6) L5: 元 数据 管理 自动 化 

fÉ L5 元 数据 管理 是 高 度 自动 化 的 , 当 逻 辑 层次 元 数据 变更 时 ,会 被 传播 到 物理 层次 ， 
同样 物理 层次 变更 时 逻辑 层次 将 被 更 新 。 雹 数据 中 的 任何 变化 将 触发 业务 工作 流 , 以 便 其 
他 业务 系统 进行 相应 地 修改 。 由 于 各 个 业务 系统 遵照 相同 的 业务 词汇 表 和 分 类 系统 (元 模 
型 ) ,它们 之 间 的 关系 可 以 通过 知识 本 体 进行 推断 ,因此 各 个 应 用 系统 之 间 的 数据 格式 的 映 
射 自动 产生 。 


4.6 数据 的 交付 


大 数据 涵盖 了 众多 社会 生活 的 范畴 ,从 金融 交易 到 人 类 基因 组 ,从 汽车 的 遥测 传感器 到 
互联 网 上 社会 媒体 日 志 。 利 用 传统 的 数据 库 方式 来 处 理 和 存储 这 些 大 数据 是 相当 昂贵 的 。 
为 了 解决 这 个 问题 的 新 技术 ,利用 开放 源 解决 方案 和 商业 硬件 高 效 存储 数据 ,并 行 工作 负 
载 ,提供 快速 处 理 能 力 。 
事实 上 ,大 家 所 看 到 的 新 出 现 的 大 数据 需求 ,以 及 关于 其 处 理 平台 和 流程 的 讨论 只 是 大 
数据 传输 整体 的 一 部 分 。 在 现实 中 ,实现 全 部 潜在 大 数据 的 交付 过 程 ,需要 7 个 步骤 : 
* 收集: 从 数据 源 和 分 布 在 多 个 节点 处 收集 数据 ,通常 是 一 个 网 格 、 每 个 进程 的 一 个 
子 集 的 并 行 数据 。 

。 流程: 对 每 个 节点 上 的 数据 进行 快速 计算 。 节 点 “压缩 ”结果 数据 到 更 多 的 消费 数 
据 , 由 此 产生 的 数据 集 可 以 被 人 工 ( 在 分 析 的 情况 下 ) 或 机 器 (在 解释 大 型 结果 的 情 
况 下 ) 使 用 。 
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管理 : 正在 处 理 的 大 数据 往往 是 异 构 的 ,来 自 不 同 的 交易 系统 。 这 些 数 据 通常 需要 
理解 .定义 .注释 ,并 且 安 全 起 见 , 还 要 进行 扫描 和 审核 。 

测量 : 公司 往往 会 测量 数据 的 速率 ,可 与 其 他 客户 的 行为 或 记录 进行 整合 ,并 随 着 
时 间 的 推移 来 决定 是 否 对 其 进行 整合 或 校正 。 业 务 要 求 应 告知 测量 和 持续 跟踪 的 
消耗 : 所 产生 的 使 用 数据 应 符合 原 要 求 的 处 理 流程 。 例 如 ,如 果 分 析 几 百 TB 的 社 
会 媒体 数据 ,有 助 于 了 解 社会 媒体 数据 如 何 驱动 用 户 额外 购买 产品 ,那么 就 应 该 建 
立 如 何 访问 和 更 新 社会 媒体 数据 的 规则 。 这 与 机 器 对 机 器 的 数据 访问 是 同样 重 
要 的 。 

存储 : 由 于 “数据 即 服务 ”趋势 的 形成 , 越 来 越 多 的 数据 开始 存储 在 单一 位 置 ,以 便 
于 进程 的 访问 。 数 据 用 于 短期 存储 还 是 长 期 保留 ,应 有 谨慎 的 存储 方案 。 

数据 治理 : 数据 治理 适用 于 前 六 个 阶段 。 通 过 建立 流程 和 指导 原则 ,制裁 围绕 数据 
的 行为 。 大 数据 需要 根据 其 预期 消费 进行 管辖 。 


大 多 数 工作 人 员 负 责 调查 和 获取 大 数据 解决 方案 时 侧重 于 收集 和 存储 步 又 ,而 忽略 了 
其 他 的 步 又。 他 们 的 问题 是 :“ 我 们 如 何 收集 所 有 这 些 数据 ,我 们 把 这 些 数据 存储 在 何 处 ?” 

正如 ITBusinessEd ge 一 书 的 作者 洛 林 劳 森 在 其 最 近 的 博客 中 所 说 ， 确 保 您 的 分 享 是 
合理 性 的 唯一 途径 是 要 保证 您 有 一 套 有 效 的 管理 大 数据 的 计划 。” 

挖掘 数据 治理 进程 , 尽 最 大 的 努力 确保 数据 : 


商业 价值 和 理想 的 结果 是 明确 的 ; 

处 理 关 键 数 据 的 相关 政策 已 经 被 批准 ; 
专业 知识 应 用 到 大 数据 问题 ; 

定义 关键 数据 的 规则 是 明确 的 ; 

冲突 和 问题 升级 有 一 个 过 程 ; 

数据 管理 ; 

在 关键 问题 发 展 阶段 有 决策 权 ; 
执行 数据 隐私 政策 。 


总 之 ,数据 治理 意味 着 大 数据 的 应 用 程序 是 有 用 的 和 相关 的 。 确 保 不 会 浪费 新 的 大 数 
据 , 使 得 处 理 、 存 储 和 交付 速度 更 具 成 本 效益 , 比 以 往 的 技术 更 灵活 。 


Cosi 


IBM InfoSphere 软 件 


5.1 InfoSphere Data Architect 


IBM InfoSphere Data Architect 是 一 个 企业 级 的 数据 建 模 工 具 , 它 拥有 一 套 完 整 的 开 
发 环境 能 够 帮助 用 户 对 异 构 分 布 的 数据 资产 进行 建 模 ,并 且 发 现 和 创建 这 些 数据 资产 之 间 
的 关系 。 

通过 本 章 学 习 可 以 了 解 到 : 

。 什么 是 IBM InfoSphere Data Architect; 

。 如 何 使 用 IBM InfoSphere Data Architect; 

° 系统 配置 要 求 ; 

。 如 何 安 装 IBM InfoSphere Data Architect。 


5.1.1 什么 是 IBM InfoSphere Data Architect 


当前 企业 拥有 数量 庞大 的 数据 ,并 且 许 多 决策 的 制定 都 依赖 于 这 些 数据 。IT 业 面 临 非 
常 明确 的 挑战 : 了解 数据、 提高 数据 的 质量 和 确保 数据 的 一 致 性 、 确 保 数据 的 设计 满足 商业 
需求 。 IBM InfoSphere Data Architect 是 一 个 协作 的 数据 建 模 和 信息 集成 工具 ,用 于 发 现 、 
建 模 、 关 联 和 标准 化 各 种 数据 资产 。 它 的 主要 功能 和 优点 包括 : 

。 InfoSphere Data Architect 支持 对 多 种 数据 源 进行 分 析 并 发 现 其 数据 结构 。 通 过 
JDBC 和 数据 源 建立 连接 后 ,用 户 使 用 InfoSphere Data Architect 可 以 方便 地 浏览 
数据 库 中 的 数据 结构 , 它 还 提供 了 易于 操作 和 理解 的 界面 ,对 数据 库 中 的 对 象 按照 
层次 结构 分 类 ,便于 用 户 对 数据 库 中 的 每 一 个 对 象 的 详细 信息 进行 查看 和 理解 。 

* InfoSphere Data Architect 支持 多 种 数据 库 , 如 DB29 , Informix? „Oracle, Sybase, 
Microsoft SQL Server, MySQL 和 Teradata 等 。 用 户 可 以 为 这 些 数 据 库 创建 逻辑 
数据 模型 ,物理 数据 模型 和 域 模型 。 逻 辑 数据 模型 和 物理 数据 模型 中 的 元 素 还 可 以 

图 进行 可 视 化 展现 。 图 的 展现 采用 信息 工程 (IE) 表 示 法 显示 ,同时 ,在 物理 数据 
模型 中 的 图 还 可 以 通过 UML 表示 法 显示 。 对 于 物理 数据 模型 的 创建 ,InfoSphere 
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Data Architect 不 但 支持 从 头 开始 设计 创建 物理 数据 模型 ,还 支持 从 人 逻辑 数据 模型 
转换 为 物理 数据 模型 和 通过 反 向 设计 创建 物理 数据 模型 。 

IBM InfoSphere Data Architect 还 支持 创建 和 设计 多 维 逻 辑 数据 模型 和 多 维 物 理 数 据 
模型 。 同 样 地 ,用 户 可 以 从 无 到 有 地 创建 新 的 多 维 模型 ,也 可 以 通过 反 向 设计 从 已 有 的 数据 
源 中 创建 。 

。 大 多 数 数据 开发 项 目 都 采用 和 迭代 开发 的 方式 。 因 此 ,模型 设计 中 的 增 量变 化 控制 管 

理 和 减少 增 量 变化 带 来 的 影响 非常 重要 。InfoSphere Data Architect 可 以 帮助 解决 
这 个 问题 。 分 析 影 响 功 能 会 帮助 列 出 所 有 与 选中 数据 对 象 相关 的 数据 对 象 。 比 较 
和 同步 功能 则 可 以 对 两 个 模型 .模型 和 数据 库 ,或 者 两 个 数据 库 进 行 对 比分 析 , 并 且 
支持 用 户 在 模型 或 目标 数据 库 中 进行 设计 的 改变 。 用 户 还 可 以 使 用 Optim™ 
Database Administrator 来 进行 复杂 的 DB2 数据 库 对 象 的 改变 和 数据 迁移 。 
InfoSphere Data Architect 支持 用 户 设计 和 实现 统一 的 标准 ,这 些 统一 的 标准 可 以 
用 来 提升 企业 数据 的 质量 .规范 数据 在 命名 、 含 义 `. 取 值 .关联 .权限 、 隐 私 以 及 可 跟 
踪 性 方面 的 一 致 性 。 这 些 标准 一 旦 定义 好 ,可 以 应 用 于 不 同 种 类 的 模型 和 数据 库 。 
同时 ,InfoSphere Data Architect 还 提供 了 内 置 的 、 可 扩展 的 、 基 于 规则 的 分 析 验 证 
功能 ,用 来 对 数据 模型 或 者 数据 库 进行 命名 \ 语 法 ,范式 化 以 及 是 否 满足 最 佳 实践 等 
方面 的 验证 。 
不 论 是 对 于 小 的 工作 团队 中 每 个 人 承担 多 种 职能 的 情况 ,或 者 是 对 于 一 个 大 的 团队 
里 每 个 人 有 明确 的 工作 划分 的 情况 ,都 可 以 将 InfoSphere Data Architect 与 基于 
Eclipse 的 版 本 控制 软件 集成 起 来 使 用 ,如 Rational? Clear Case 或 者 并 发 版 本 控制 
系统 (CVS)。 


5.1.2 下 载 DB2 Express-C 


读者 可 以 从 IBM Academic Initiative 处 索取 到 免费 版 本 的 IBM InfoSphere Data 
Architect。 但 是 读者 必须 隶属 于 某 一 个 大 学 并 且 满 足下 面 的 条 件 之 一 : 

。 数据 建 模 研究 方向 的 学 生 

。 数据 建 模 或 数据 架构 方向 的 讲师 

。 使 用 本 产品 来 辅助 学 术 研究 


5.1.3 安装 InfoSphere Data Architect 


读者 可 以 使 用 Launchpad 界面 方式 手动 安装 或 者 使 用 配置 文件 方式 自动 安装 IBM 
InfoSphere Data Architect。 使 用 配置 文件 自动 安装 指 的 是 可 以 将 安装 需要 的 选项 写 在 配 
置 文件 中 ,然后 运行 配置 文件 进行 安装 ,安装 过 程 不 需要 用 户 干涉 ,这 种 方式 在 多 台 机 器 上 
需要 进行 安装 时 非常 有 用 。 

在 这 节 里 将 重点 介绍 使 用 Launchpad 界面 的 安装 方式 。IBM InfoSphere Data 
Architect 的 安装 需要 在 IBM Installation Manager 中 进行 ,下 面 假设 读者 还 没有 安装 IBM 
Installation Manager, 如 果 已 经 安装 了 相同 版 本 的 IBM Installation Manager, 就 不 需要 再 
次 安装 。 

安装 之 前 需要 拥有 目标 机 器 操作 系统 的 管理 员 权 限 。 请 按照 以 下 步骤 进行 IBM 
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InfoSphere Data Architect 产品 的 安装 ; 

CD 解压 文件 ,然后 运行 launchpad, 

* Windows 操作 系统 : 在 解压 后 的 文件 夹 中 运行 setup. exe 文件 。 

* Linux 或 UNIX 操作 系统 : 在 解压 后 的 根 目录 中 运行 setup 命令 。 运 行 后 会 打开 
launchpad。 

O) 选择 左 侧 列表 中 的 “安装 产品 ”。 在 安装 产品 页 面 ,可 以 选择 需要 的 安装 方式 ,如 
图 5.1 所 示 。 


f IBWw InfoSphere% Data Architect 9.1 


IBM InfoSphere Data Architect 选择 一 种 语言 : [ 疝 作 中 文 ”可 .确定 


xim 
发 和 信息 | 管理 安装 
| 
Installation Guide | 可 以 使 用 管理 安装 将 产品 安装 在 系统 上 的 任意 位 置 。 要 执行 管 


安装 产 理 安 装 ， 您 必须 具有 管理 员 权限 ， 或 必须 已 经 使 用 管理 安装 来 
Le E Z IBM Installation Managere 
管理 安装 


FEPTE 非 管理 安装 
退出 使 用 非 管理 安装 ， 产 品 只 能 安装 在 用 户 位 置 。 如 果 您 没有 管理 
员 权限 或 拥有 IBM Installation Manager 的 非 管理 安装 ， 
那么 必须 的 行 非 管理 安装 。 


从 左 侧 导 航 菜单 中 选择 适合 的 安装 类 型 以 开始 安装 。 


图 5.1 选择 安装 产品 运行 Installation Manager 


选择 【管理 安装 命令 ,IBM Installation Manager 将 会 被 打开 ,如 图 5.2 所 示 。 


包 
Er dd 


| secs de "ER 
S E] Ü IM InfoSphere Data Architect. 
B, ME 9.100 即将 安装 m 

ian = = J _ a 
EIER QD EERME MINEO 
详细 信息 a 
IBA InfeSphere Data Architect 9.1.0.0 
TBI IsfeSpheya Dat quas Ns TERM 

LES: bae Tiana S. HORE. E va LEMAN, COS REN ADNBNEUN T. ER 
* FHER: C; \Docaments and Settings IlZednin MIB be, i dadIO wi n32\di skt 
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图 5.2 选择 要 安装 的 软件 包 
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为 共享 资源 和 Installation Manager 选择 安装 目录 。 在 练习 中 ,可 以 使 用 默认 的 路 径 ， 
但 是 需要 注意 确保 目标 磁盘 有 足够 的 空间 以 备 之 后 可 以 和 其 他 基于 Eclipse 的 产品 进行 
shell-share。 

注意 : 如 果 之 后 使 用 Installation Manager 安装 产品 ,将 不 能 选择 共享 资源 的 目录 。 

单 击 【 下 一 步 ] 按 钮 ,如 果 在 目标 机 器 上 已 经 有 安装 好 的 Eclipse 并 且 版 本 号 为 3. 4. 2， 
可 以 选择 扩展 已 有 的 Eclipse 开发 环境 ,使 用 这 种 方式 将 只 安装 产品 特有 的 功能 ,不 会 改变 
已 有 的 Eclipse 开发 环境 的 设置 。 对 于 练习 ,这 里 使 用 默认 设置 , 单 击 【下 一 步 ] 按 钮 ， 
如 图 5. 3 一 图 5. 10 所 示 。 
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图 5.3 接受 许可 协议 


安装 软件 包 
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图 5.4 选择 安装 目录 
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Ë IBN Installation Wanager 


安装 软件 包 


PPE a T PAN- Aia 某 些 莱 容 的 软件 包 可 以 安装 到 公共 软件 包租 中 ， 并 将 共享 公共 用 户 界面 。 选择 现 有 的 软件 包 "I 
Ej 许可 证 [mc reme ne 


使 用 现 有 软件 包 扯 QD. 


O ARERR O 


软件 包 姐 名 安装 目录 
y, IBM InfoSphere 


C: Vfrogran Files IBHVIDAS. 1.0 


软件 包租 名 : IBN InfoSphere 
SRB QU: [C Progrw Files IBINIDIS 1.0 


详细 信息 


磁盘 空间 信息 
共享 资源 目录 : C:\Program Files\IBMSDPShared 


at ume 
€ 16.59 GB 
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图 5.5 创建 新 的 软件 包 组 
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图 5.6 选择 语言 包 
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Ë IBE Installation Wanager 


安装 软件 包 
RETENER. 


安装 许可 证 fu hea > 


|_ 功 能 部 件 
= [8] Ü IBN InfoSphere Data Architect 9.1.0.0 
Architect 核心 功能 
Architect 高 级 功能 
mL 开发 
SOL 例 程 和 FL/SQL 开发 
扩展 的 数据 库 支持 
Oracle 支持 
SQL Server 支持 
Sybase 支持 
Teradata 支持 
Cloudscape 支持 
Netezza 支持 
BIRT 可 视 报 几 设计 器 
Ame kh Xét T Beet 
Eco G) 
gy- 由 干 依 再 关 系 已 由 Installation Manager Itf 


详细 信息 
IB InfoSphere Date Architect 9.1.0.0 


IBN InfoSphere Data Architect 是 一 个 可 视 的 数据 En LUNE: 种 型， 也 可 以 格 组 织 范围 内 不 同 来 源 的 资产 搞 一 到 
SUME iet ifa. DRM E va EXHI CORES EA BYP LU QUERER 


` 
RERNE R) 


‘tS E 安装 四 
图 5.7 选择 要 安装 的 功能 部 件 


allation Kanager 


安装 软件 包 


请 填写 软件 包 的 配置 . dd 


安装 省 可 证 位 置 ( Hest nE 


s asm 公共 配置 
o 帮助 系统 帮助 系统 


SEEDS 2 PUN here Ln isis Aao a IE EM 


包 的 文档 将 会 
安装 元 成 后 ， 可 通过 使 用 产品 中 的 “帮助 首选 项 ”选项 来 更 改 存 了 帮助 的 方式 。 
@ 从 ve FRED 


O TEXTIGEURED. MEN: 全 ARIMA a 


人 〇 从 内 部 同 服务 器 存 取 帮 助 


图 5.8 选择 从 何 处 获取 软件 帮助 
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Ë IBN Installation Wanager 


安装 软件 包 
semen. 


安装 许可 证 f 
目标 位 置 
软件 包 扯 名 : KBM InfoSphere 
安装 目录 : C:\Program FilesVIBINIDAG. 1.0 


共享 资源 目录 :C:\Program Tiles IBU SDPShared 
软件 包 
Aem 
& (D IBM InfoSphere Data Architect 9.1.0.0 
De Architect 核心 功能 
日 s Architect 高 级 功能 
m 开发 
(p SOL 例 程 和 PL/SQL 开发 


门 wnisrwne TH 


总 可 用 空间 
16.59 GB 


1 751.11 "D 
hi 821.54 NB 
> FAREA 
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图 5.9 确定 安装 摘要 ,选择 安装 进行 安装 


Ë IBE Installation Manager 


@ ===une. auus 
已 安装 以 下 软件 包 : 


ES IBI TofsSphere | | € IF In£eSphere Data Architect 
Ü IBN InfcSphere Data Architect 9.1.0.0 | 


要 局 动 哪个 程序 了 


Oxo 


注意 : 如果 软件 包 支 持 回 滚 ， HS LIMBRESCSHAN PONER. 您 可 以 在 用 于 回潮 的 文件 首选 项 页 面 上 册 除 这 些 文件 。 


图 5.10 产品 安装 成 功 界面 
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在 图 5. 10 所 示 的 页 面 中 ,选择 【无 选项 , 先 不 启动 InfoSphere Data Architect, Anti 
者 购买 了 产品 的 许可 证 ,在 启动 InfoSphere Data Architect 之 前 ,需要 首先 使 用 Installation 
Manager 为 产品 应 用 许可 证 。 单 击 【完成 3 按钮 退出 安装 界面 。 

在 launchpad 左 侧 选择 [退出 命令, 退出 launchpad. 

到 此 已 经 成 功 地 安装 了 IBM InfoSphere Data Architect。 如 果 读 者 拥有 产品 的 许可 
证 ,需要 在 试用 版 30 天 有 效 期 之 前 应 用 许可 证 激活 产品 。 


5.2 InfoSphere Streams 


来 自 多 个 来 源 的 信息 正在 以 难以 置信 的 速度 增长 。 互 联网 用 户 数量 在 2012 年 已 经 达 
到 22.7 亿 。 每 一 天 ,Twitter 都 会 生成 超过 12TB 的 tweet, Facebook 生成 超过 25TB 日 志 
数据 ,纽约 证 券 交 易 所 采集 近 1TB 交易 信息 。 每 天 会 创建 大 约 300 亿 个 射频 识别 (RFID) 
标记 。 此 外 ,每 年 销售 的 数 亿 台 GPS 设备 ,目前 正在 使 用 的 超过 3000 万 个 连 网 的 传感器 
(而 且 每 年 在 以 高 于 30% 的 速度 增长 ) ,都 在 产生 数据 。 这 些 数 据 量 预计 在 未 来 10 年 中 每 2 
E 

一 家 公司 在 一 年 时 间 内 可 生成 高 达 数 PB 的 信息 : 网 页 、 博 客 、 单 击 流 、 搜 索索 引 、 社 交 
媒体 论坛 .即时 消息 .文本 消息 .电子 邮件 .文档 .用户 人 口 统计 数据 ,来 自主 动 和 被 动 系统 的 
传感器 数据 ,等 等 。 许 多 人 估计 ,这 些 数 据 中 高 达 80% 都 是 半 结 构 化 或 非 结构 化 数据 。 公 
司 一 直 在 寻求 更 加 敏捷 地 经 营业 务 ,以 更 加 创新 的 方式 执行 数据 分 析 和 决策 流程 。 而 且 他 
们 认识 到 ,这 些 流程 中 损失 的 时 间 可 能 导致 错失 业务 机 会 。 大 数据 挑战 的 核心 是 ,公司 掌握 
轻松 地 分 析 和 理解 互联 网 级 信息 的 能 力 ,就 像 他 们 现在 可 分 析 和 理解 较 少量 结构 化 信息 
一 样 。 

图 5. 11 展示 了 从 极 大 量 、 多 样 性 和 高 速 产生 的 上 下 文 数据 中 提取 洞察 的 大 数据 挑战 ， 
这 在 以 前 是 无 法 做 到 的 。 


http://www... 
ff, 


facebook NL 
titer Lo 


5.11. 大 数据 挑战 
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在 图 5. 11 中 ,Volume 指数 据 规模 ,从 TB 级 到 ZB 级 。Variety 指 许多 不 同 结构 中 的 数 
据 复杂 性 ,从 关系 数据 到 日 志 再 到 原始 文本 。Velocity 反映 了 流 数据 和 大 规模 的 数据 移动 。 

IBM 正在 帮助 公司 应 对 大 数据 挑战 ,为 他 们 提供 工具 来 集成 和 管理 海量 ,高 速 产 生 的 
数据 ,应 用 原生 格式 的 分 析 , 可视化 可 用 数据 以 进行 专门 分 析 , 等 等 。 下 面 将 介绍 
InfoSphere Streams ,该 技术 支持 同时 分 析 许多 数据 类 型 并 实时 执行 复杂 计算 。 读 者 将 了 解 
InfoSphere Streams 的 工作 原理 , 它 的 用 途 , 以 及 如 何 结合 使 用 它 与 另 一 个 用 于 大 数据 分 析 
的 IBM 产品 (IBM InfoSphere BigInsights) 来 执行 高 度 复 杂 的 分 析 。 


5.2.1 安装 流 计算 : 一 种 新 的 计算 模式 


流 计算 是 新 的 数据 声场 场景 所 不 可 或 缺 的 一 种 新 计算 模式 ,比如 无 处 不 在 的 移动 设备 、 
位 置 服务 和 遍布 各 处 的 传感器 。 人 们 需要 可 伸缩 的 计算 平台 和 并 行 架构 来 处 理 生成 的 海量 
流 数据 。 

BigInsights 技术 不 足以 支持 实时 流 处 理 任务 ,因为 它们 主要 面向 对 静态 数据 的 批 处 理 
的 支持 。 在 处 理 静 态 数据 的 过 程 中 , 列 出 所 有 已 连 网 用 户 的 查询 会 得 到 单一 的 结果 集 。 佛 
助 对 流 数 据 的 实时 处 理 , 可 执行 一 种 持续 查询 ,比如 列 出 在 过 去 10 分 钟 内 连 网 的 所 有 用 户 。 
此 查询 将 返回 持续 更 新 的 结果 。 在 静态 数据 领域 中 ,用 户 犹 如 在 干草 堆 中 捞 针 ; 在 流 数据 
领域 中 ,用 户 可 轻松 地 找到 这 根 针 , 因 为 干草 已 被 吹 走 。 

图 5. 12 演示 了 在 静态 数据 上 执行 的 计算 与 在 流 数据 上 执行 的 计算 之 间 的 区 别 。 


Queries Data |> Results 


(a) Static data computation (b) Strerning data computation 


图 5.12 静态 数据 计算 与 流 数 据 计算 


在 静态 数据 计算 中 (图 5. 12(a)), 查询 有 关 静 态 数 据 的 问题 。 在 流 数据 计算 中 
(图 5.12(b)) ,数据 会 由 静态 问题 持续 计算 。 

InfoSphere Streams 平台 支持 流 数据 的 实时 处 理 , 支 持 不 断 更 新 持续 查询 的 结果 ,可 仍 
在 移动 的 数据 流 中 检测 洞察 。 


5.2.2 InfoSphere Streams 概述 


InfoSphere Streams 旨 在 从 一 个 几 分 钟 到 几 小 时 的 窗口 中 的 移动 信息 (数据 流 ) 中 揭示 
有 意义 的 模式 。 该 平台 能 够 获取 低 延 迟 洞 察 ,并 为 注重 时 效 的 应 用 程序 (比如 欺诈 检测 或 网 
络 管理 ) 获 取 更 好 的 成 果 , 从 而 提供 业务 价值 。InfoSphere Streams 还 可 合并 多 个 流 , 使 得 
能 够 从 多 个 流 中 获取 新 洞察 ,如 图 5. 13 所 示 。 

InfoSphere Streams 的 主要 设计 目的 是 : 

。 快速 响应 事件 和 不 断 变化 的 业务 条 件 与 需求 。 
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K i 
图 5.13 合并 的 流 处 理 


。 支持 以 比 现 有 系统 快 几 个 数量 级 的 速度 对 数据 执行 持续 分 析 。 
。 快速 适应 不 断 变 化 的 数据 形式 和 类 型 。 
° 管理 新 的 流 模 式 的 高 可 用 性 、 异 构 性 和 分 布 。 
。 为 共享 的 信息 提供 安全 性 和 信息 机 密 性 。 
InfoSphere Streams 提供 了 一 种 编程 模型 和 IDE 来 定义 数据 来 源 ,还 提供 了 已 融合 到 
处 理 执行 单元 中 的 称 为 运算 符 的 软件 分 析 模块 。 另 外 还 提供 了 基础 架构 来 支持 从 这 些 组 件 
合成 可 扩展 的 流 处 理应 用 程序 。 主 要 平台 组 件 包 括 : 
。 运行 时 环境 : 这 包括 平台 服务 ,以 及 一 个 用 于 在 单个 主机 或 一 组 集成 的 主机 上 部 署 
和 监视 Streams 应 用 程序 的 调度 程序 。 
。 编程 模型 : 用 户 可 使 用 SPL(Streams Processing Language, 流 处 理 语言 ,一 种 声明 
性 语言 ) 来 编写 Streams 应 用 程序 。 可 使 用 该 语言 陈述 用 户 的 需求 ,运行 时 环境 会 
承担 确定 如 何 最 佳 地 服务 该 请 求 的 责任 。 在 此 模型 中 ,一 个 Streams 应 用 程序 表示 
为 一 个 由 运算 符 和 连接 它们 的 流 组 成 的 图 表 。 
。 监视 工具 和 管理 接口 : Streams 应 用 程序 处 理 数据 的 速度 比 普通 的 操作 系统 监视 实 
日 程序 快 得 多 。InfoSphere Streams 提供 了 可 处 理 此 环境 的 工具 。 


5.2.3 流 处 理 语言 


SPL.InfoSphere Streams 的 编程 语言 ,是 一 种 分 布 式 数 据 流 合成 语言 。 它 是 一 种 类 似 
C++ 3X Java 的 可 扩展 且 全 功能 的 语言 ,支持 用 户 定义 的 数据 类 型 。 用 户 可 以 使 用 SPL 或 原 
生 语 言 (C++ 或 Java) 编 写 自 定义 函数 。 也 可 以 使 用 C++ 或 Java 编写 用 户 定义 的 运算 符 。 

InfoSphere Streams 持续 应 用 程序 会 描述 一 个 导向 图 ,该 图 由 各 个 互联 且 处 理 多 个 数 
据 流 的 运算 符 组 成 。 数 据 流 可 来 自 系统 外 部 ,或 者 在 应 用 程序 内 部 生成 。SPL 程序 的 基本 
构建 块 包括 : 

。 流 : 一 个 无 限 的 结构 化 元 组 序列 。 它 可 逐个 元 组 地 由 运算 符 使 用 或 通过 一 个 窗口 

的 定义 来 使 用 。 

* TH: 属性 及 其 类 型 的 一 个 结构 化 列表 。 流 上 的 每 个 元 组 拥有 由 其 流 类 型 指定 的 

形式 。 
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流 类 型 : 指定 元 组 中 每 个 属性 的 名 称 和 数据 类 型 。 

。 窗口 : 一 个 有 限 \ 有 序 的 元 组 分 组 。 它 可 以 基于 计数 时间、 属性 值 或 标点 符号 。 

* 运算 符 : SPL 的 基础 构建 块 , 它 的 运算 符 会 处 理 来 自流 的 数据 并 可 生成 新 流 。 

处 理 元 素 (PE) : 基础 执行 单元 。 一 个 PE 可 封装 单个 运算 符 或 多 个 合并 的 运算 符 。 
作业 : 一 个 已 部 署 好 的 用 来 执行 的 Streams 应 用 程序 。 它 由 一 个 或 多 个 PE 组 成 。 
除了 一 组 PE 之 外 , SPL 编译 器 还 会 生成 一 个 ADL (Application Description 
Language, 应 用 程序 描述 语言 ) 文 件 来 描述 应 用 程序 的 结构 。 该 ADL 文件 包含 每 个 
PE 的 详细 信息 ,比如 要 加 载 和 执行 哪个 二 进 制 文件 ,调度 限制 、 流 格式 和 一 个 内 部 
运算 符 数据 流 图 。 

图 5.14 演示 了 SPL 程序 的 InfoSphere Streams 运行 时 视图 。 


Instance 


Job 
Node 


Stream1 O O 


Stream! 
Node 


图 5.14 InfoSphere 运行 时 执行 


一 个 运算 符 表示 一 个 可 重用 的 流转 换 器 ,将 一 些 输 入 流转 换 为 输出 流 。 在 SPL 程序 
中 ,运算 符 调用 可 实现 预算 法 的 特定 用 途 , 使 用 分 配 的 特定 的 输入 和 输出 流 ,以 及 在 本 地 指 
定 的 参数 和 逮 辑 。 每 次 运算 符 调 用 都 会 对 输入 和 输出 流 命名 。 各 种 内 置 的 InfoSphere 
Streams 运算 符 提供 了 许多 强大 的 功能 : 
Source: 读 取 流 格式 的 输入 数据 。 
Sink: 将 输出 流 的 数据 写 入 外 部 存储 或 系统 中 。 
Functor: 过 滤 、 转 换 和 对 输入 流 的 数据 执行 各 种 功能 。 
Sort: 对 定义 的 键 上 的 流 数据 排序 。 
Split; 将 输入 流 数据 拆 分 为 多 个 输出 流 。 
Join: 合并 定义 的 键 上 的 输入 流 数据 。 
Aggregate: 聚合 定义 的 键 上 的 流 数据 。 
Barrier: 组 合 和 匹配 流 数 据 。 
Delay: 演示 一 个 流 数据 流 。 
Punctor: 识别 应 一 起 处 理 的 数据 分 组 。 
一 个 流连 接 到 一 个 运算 符 的 位 置 称 为 端口 。 许 多 运算 符 ( 例 如 Functor) 有 一 个 输入 端 
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口 和 一 个 输出 端口 ,但 运算 符 也 可 以 没有 输入 端口 (比如 Source) 和 没有 输出 端口 (比如 
Sink) ,或 者 拥有 多 个 输入 或 输出 端口 (比如 Split 和 Join)。 清 单 1 给 出 了 Sink 的 一 个 SPL 
示例 , 它 有 一 个 输入 端口 并 将 输出 元 组 写 人 到 一 个 磁盘 文件 中 。 


清单 1 Sink 示例 


() as Sink = FileSink(StreamIn) { 


param 
file : "/tmp/people. dat"; 
format : csv; 
flush : 20u; 

) 


在 清单 中 ,file 是 一 个 强制 性 参数 ,提供 了 输出 文件 的 路 径 。flush 参数 用 于 清除 给 定 
数量 的 元 组 后 的 输出 。format 参数 指定 了 输出 文件 的 格式 。 

合 运算 符 是 一 个 运算 符 集合 。 它 表示 对 原始 ( 非 组 合 ) 运 算 符 或 组 合 ( 工 套 ) 运 算 符 的 
一 个 子 图 的 一 种 封装 。 它 类 似 于 过 程 语言 中 的 宏 。 

一 个 应 用 程序 由 一 个 没有 输入 或 输出 端口 的 主要 组 合 运 算 符 表示 。 数 据 可 流入 和 流 
出 ,但 不 会 流 到 一 个 图 表 内 的 流 上 ,而 且 流 可 导出 到 在 同一 个 实例 中 运行 的 其 他 应 用 程序 和 
从 这 些 应 用 程序 导入。 清单 2 中 的 代码 给 出 了 主要 组 合 运算 符 的 框架 。 

清单 2 主要 组 合 运算 符 的 结构 


composite Main { 


graph 
stream ... { 
} 

stream ... { 


) 
) 
作为 一 个 示例 ,来 看 一 个 简单 的 流 应 用 程序 WordCount, 它 统计 一 个 文件 中 的 行 数 和 
字数 。 该 程序 由 以 下 流 图 组 成 : 
。 一 个 Source 预算 法 调用 , 读 取 一 个 文件 并 将 各 行 发 送 给 数据 流 。 
。 一 个 Functor 运算 符 调用 ,统计 行 数 和 每 个 数据 行 的 字数 ,将 统计 数据 发 送 给 它 的 
输出 流 。 
。 一 个 Counter 运算 符 调用 ,聚合 文件 中 所 有 行 的 统计 数据 并 打印 在 末尾 。 
在 介绍 WordCount 的 主要 组 合 运算 符 之 前 ,将 定义 一 些 帮 助 器 。 为 一 行 的 统计 数据 使 
用 LineStat 类 型 。 此 外 ,需要 构建 一 个 countWords(rstring line) 函数 来 统计 一 行 中 的 字 
数 ,需要 使 用 一 个 addM(mutable LineStat x, LineStat y) AOK RIMA LineStat 值 并 存 
储 结 果 。 清 单 3 定义 了 这 些 帮 助 器 。 


清单 3 WordCount 帮助 器 定义 


type LineStat = tuple < int32 lines, int32 words >; 


int32 countWords(rstring line) { 
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return size(tokenize(line," Vt",false)); 


) 


void addM(mutable LineStat x,LineStat y) ( 
x.lines *- y.lines; 
x.words *- y.words; 


) 
现在 可 以 定义 主要 组 合 运算 符 了 ,如 清单 4 所 示 。 
清单 4 WordCount 的 主要 组 合 运算 符 


composite WordCount { 


graph 

stream < rstring line> Data = FileSource() { 
param file : getSubmissionTimeValue("file"); 
format : line; 


) 
stream < LineStat > OneLine = Functor(Data) ( 


output OneLine : lines = 1, words = countWords( line); 
} 


() as Counter = Custom(OneLine) { 


logic state : mutable LineStat sum = { lines = 0, words = 0 }; 
onTuple OneLine : addM( sum, OneLine); 
onPunct OneLine : if (currentPunct() == Sys.FinalMarker) 


println(sum); 


j 


5.2.4 开发 环境 


InfoSphere Streams 提供 了 一 个 敏捷 开发 环境 ,该 环境 由 Eclipse IDE, Streams Live 
Graph 视图 和 一 个 流 调 试 器 组 成 。 该 平台 还 包含 用 于 加 速 和 简化 特定 功能 或 行业 的 解决 方 
案 开 发 的 工具 包 : 

。 标准 工具 包 : 包含 随 产品 发 布 的 默认 运算 符 。 

m 关系 运算 符 ,比如 Filter、Sort、Functor、Join、Punctor 和 Aggregate, 
m 适配器 运算 符 , 比 如 FileSource, FileSink, DirectoryScan 和 Export, 
m 实用 程序 运算 符 , 比如 Custom Split. DeDuplicate, Throttle, Union, Delay, 
ThreadedSplit, Barrier 和 DynamicFilter。 
。 互联 网 工具 包 : 包括 HTTP.FTP.HTTPS.FTPS 和 RSS 等 运算 符 。 
。 数据 库 工 具 包 : 支持 DBMS, 包 括 DB29 , Netezza, Oracle Database, SQL Server 和 
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MySQL. 
* 其 他 内 置 工具 包 : 金融 数据 挖掘 、 大 数据 和 文本 工具 包 。 


5.2.5 BigInsights 和 InfoSphere Streams 之 间 的 集成 和 交互 


不 断 从 系统 中 生成 大 量 宝贵 数据 的 公司 正面 临 为 以 下 两 个 重要 用 途 而 分 析 数 据 的 问题 
困扰 : 及 时 感知 和 响应 当前 事件 ,根据 历史 知识 进行 预测 ,从 而 指导 响应 。 这 一 情形 产生 了 
无 缝 运行 移动 数据 (当前 数据 ) 和 静止 数据 (历史 数据 ) 分 析 、 处 理 海量 、 多 样 性 、 高 速 产生 的 
数据 的 需求 。IBM 的 移动 数据 (InfoSphere Streams) 与 静止 数据 (BigInsights) 平 台 的 集成 
解决 了 3 个 主要 应 用 场景 的 需求 : 

° 可 伸缩 的 数据 获取 : 通过 Streams 持续 将 数据 获取 到 BigInsights 中 。 例 如 ,通常 需 
要 获取 来 自 社交 媒体 来 源 ( 比 如 Twitter 和 Facebook) 的 非 结构 化 文本 数据 ,以 提取 
各 种 类 型 的 态度 和 线索 。 在 这 种 情况 下 ,如 果 文 本 提取 在 获取 数据 时 执行 ,那么 尽 
早 消 除 垃圾 邮件 等 无 关 数 据 会 让 效率 高 很 多 。 这 种 集成 使 公司 能 够 避免 巨额 的 非 
必要 存储 成 本 。 

加 速 和 充实 : 从 BigInsights 生成 历史 上 下 文 来 加 速 分 析 和 充实 传 入 的 Streams 数 

据 。BigInsights 可 用 于 分 析 在 较 长 的 时 间 窗 口内 从 各 种 连续 和 静态 的 数据 来 源 吸 

收 和 集成 的 数据 。 此 分 析 的 结果 为 各 种 在 线 分 析 提 供 了 上 下 文 ,可 用 于 将 它们 引导 

至 一 种 已 知 状态 。 回 到 社交 媒体 应 用 程序 的 场景 ,一 条 传人 的 Twitter 消息 仅 拥有 

发 布 该 消息 的 人 的 ID。 但 是 ,历史 数据 可 通过 属性 (比如 影响 者 ?充实 该 信息 ,为 执 

行 下 游 分 析 以 适当 应 对 此 用 户 所 表达 的 态度 提供 机 会 。 

自 适应 分 析 模型 : BigInsights 上 的 分 析 操 作 ( 比 如 数据 挖掘 、 机 器 学 习 或 统计 建 模 ) 

所 生成 的 模型 。 这 些 可 用 作 分 析 Streams 上 的 传人 数据 的 基础 ,基于 实时 观察 结果 

而 更 新 。 

IBM 大 数据 平台 的 移动 数据 和 静止 数据 部 分 可 通过 3 种 主要 的 组 件 类 型 来 集成 : 

。 通用 分 析 : 相同 的 分 析 功 能 可 用 在 Streams 和 BigInsights 上 。 

* 通用 数据 格式 : Streams 格式 运算 符 可 在 Streams 元 组 格式 和 BigInsights 使 用 的 数 
据 格 式 之 间 转 换 数 据 。 

* 数据 交换 适配器 : Streams Source 和 Sink 适配器 可 用 于 与 BigInsights 交换 数据 。 


5.2.6 InfoSphere Streams 环境 


Although InfoSphere Streams 可 在 单 台 计算 机 上 运行 , 它 被 设计 成 可 在 集群 上 运行 ,以 
提供 几乎 无 限 的 可 扩展 性 。 一 台 计 算 机 可 用 作 一 台 管 理 主机 ,一 台 应 用 程序 主机 ,或 是 一 台 
混合 模式 的 主机 ,这 种 主机 既 可 以 运行 管理 服务 ,也 可 以 运行 应 用 服务 和 代码 ,如 图 5. 15 
所 示 。 

请 注意 ,管理 节点 运行 的 一 组 服务 将 会 跟踪 集群 的 健康 状况 和 作业 的 运行 情况 。 可 以 
将 一 个 作业 看 作 是 一 个 程序 。 作 业 和 程序 之 间 的 区 别 在 于 它 是 由 操作 符 构 成 ,可 通过 调度 
在 任何 可 用 应 用 主机 上 运行 。 作 业 由 多 个 流程 组 成 .而 程序 则 在 单个 流程 上 运行 。 

InfoSphere Streams 包含 的 一 些 工具 可 帮助 用 户 管理 环境 和 开发 InfoSphere Streams 
应 用 程序 。 


第 5 章 IBM InfoSphere 软 件 ll 135 


SCH Name service Recovery 


Application Host | | Application Host Application Host 


EI 
PEC PEC PEC 
PE/Operators PE/Operators| | PE/Operators 


图 5.15 集群 上 的 管理 主机 和 应 用 主机 的 混合 


。 FirstSteps: 执行 安装 后 的 任务 ,比如 配置 SSH、 生 成 公 钥 和 私 钥 、 配 置 恢复 数据 
* Instances Manager; 创建 .配置 .更 新 和 删除 实例 与 集群 。 实 例 管理 程序 还 可 以 启 
动 InfoSphere Streams 控制 台 。 
* InfoSphere Streams Console: 基于 Web 的 GUI, 用 于 监控 和 管理 实例 与 应 用 程序 。 
InfoSphere Streams Studio: 基于 Eclipse 的 工具 ,用 于 开发 应 用 程序 。 该 工具 中 包含 
一 个 图 形 编辑 器 和 向 导 , 可 简化 标准 开发 任务 。 它 还 包含 运行 InfoSphere Streams 作业 及 
其 操作 符 的 可 视 化。 
。 Streamtool: 命令 行 工具 ,用 于 自动 化 管理 和 监控 任务 。 
* InfoSphere Streams Compiler( SC) : 通过 工具 来 自动 化 编译 任务 。 还 可 直接 使 用 或 
通过 生成 文件 (makefile) 使 用 。 
一 旦 掌握 了 图 形 工具 (列表 中 的 前 四 个 符号 ) ,就 可 以 使 用 它们 来 帮助 大 幅 提高 生产 力 。 
学 习 曲 线 非常 短 且 值得 尝试 。 


5.2.7 InfoSphere Streams 编程 


InfoSphere Streams 编程 首先 将 操作 符 聚 集 在 一 起 ,以 便 进行 模块 化 处 理 并 启用 并 行 
执行 。 图 形 编辑 器 可 以 更 轻松 地 将 操作 符 连接 在 一 起 ,创建 一 个 作业 处 理 图 形 。 

InfoSphere Streams 还 使 用 称 为 流 处 理 语言 (SPL) 的 程序 语言 。 如 果 读 者 熟悉 C 语 
言 Java 编程 语言 和 Python, 那 么 应 该 很 快 就 会 熟练 使 用 SPL。 

InfoSphere Streams 与 大 多 数 语言 不 同 的 其 中 一 个 方面 是 其 广泛 的 可 用 数据 类 型 集 ， 
如 图 5. 16 所 示 。 


PEC 
PE/Operators 
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(any) 


(primitive) (composite) 


— ds N 


boolean enum (numeric) timestamp (string) biob xml (collection) tuple 


(integral) (floatingpoint) (complex) rstring ustring list set map 


(signed) (unsigned) (float) (decimal) 


int8 uint8 float32 上 decimal32 
int16 uint16 -float64 -decimal64 
int32 uint32 float128 L decimal128 上 complex128 
int64 ^ uint64 


5.16 InfoSphere Streams 中 可 用 的 数据 类 型 


利用 这 些 类 型 ,几乎 可 以 匹配 任何 数据 类 型 。 其 至 可 以 根据 所 提供 的 原始 类 型 创建 自 
己 的 数据 类 型 。 

除了 数据 类 型 外 ,InfoSphere Streams 还 附带 了 重要 的 分 类 功能 集 , 包 括 集 合 操作 ( 列 
表 、 集 合 与 映射 ) 文件 .数学 .字符 串 、. 时 间 和 实用 功能 。 除 了 处 理 不 同 数据 类 型 的 几 个 同名 
功能 和 特定 于 给 定 操作 符 的 功能 之 外 , InfoSphere Streams 总 共和 包含 二 百 五 十 多 种 功能 。 
用 户 还 可 以 在 InfoSphere Streams 包含 的 专用 工具 集中 添加 技术 功能 。 

InfoSphere Streams 编程 从 操作 符 开 始 。 操 作 符 管理 通过 各 种 方式 从 外 部 世界 获取 数 
据 , 执 行 数据 转换 ,并 提供 最 终结 果 。 它 支持 将 框架 快速 凝聚 为 一 个 解决 方案 ,并 利用 该 解 
决 方案 来 解决 业务 问题 。 


5.2.8 操作 符 和 工具 集 


操作 符 组 成 了 比 程序 编程 更 高 级 别 的 抽象 层次 ,利用 操作 符 , 就 拥有 了 对 人 处理 的 逻辑 隔 
离 , 从 而 提供 了 处 理 分 发 。 操 作 符 来 自称 为 “工具 集 ” 的 不 同 数 据 包 。 尤 其 是 一 个 标准 工具 
集 始终 包含 在 所 有 InfoSphere Streams 项 目 中 。 它 提供 了 产品 附带 的 所 有 功能 。 尽 管 各 种 
功能 可 能 会 被 视 为 语言 的 一 部 分 ,但 还 是 会 被 分 隔 出 来 ,因为 它们 是 在 不 同 的 工具 集中 定 
义 的 。 

一 个 工具 集 就 是 一 个 功能 数据 包 , 它 通常 与 某 个 特定 的 问题 领域 相关 。 这 些 工 具 集 中 
可 以 包括 操作 符 、 功 能 和 数据 类 型 。 下 面 是 InfoSphere Streams 3. 1 中 提供 的 工具 集 : 

* 标准 工具 集 : 包含 适配器 ,关系 运算 、 实 用 程序 和 XML 等 操作 符 。 

。 大 数据 : 与 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 和 
Data Explorer 相配 合 。 
复杂 事件 处 理 : 用 来 定义 如 何 处 理 复杂 事件 。 
数据 库 : 访问 关系 数据 库 , 比如 DB2, Informix, Netezza, Oracle, SQL Server, 
Teradata 等 。 
° 金融 服务 : 包含 一 组 用 来 处 理 金融 市 场 处 理 的 操作 符 和 功能 。 
地 理 空间 : 提供 一 组 处 理 地 理 空间 数据 的 功能 。 
。 InfoSphere DataStage 集成 : 与 DataStage 相配 合 。 
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Internet; 访问 HTTP(S) ,FTP(S)fll RSS, 
* Messaging: 与 WebSphere MQ 和 ActiveMQ 进行 通信 。 
* Mining: 提供 一 种 对 数据 进行 评分 的 方法 。 
R Project: 与 R Project 统计 环境 相配 合 。 
Text; 提供 文本 分 析 。 

* TimeSeries; 帮助 处 理 时 间 序 列 , 即 基于 时 间 的 数据 处 理 。 

标准 工具 集 附带 了 36 个 操作 符 以 及 256 个 以 上 的 功能 。 其 他 工具 集 添加 了 四 十 多 个 
操作 符 和 几 十 个 函数 。 通 过 所 有 这 些 预 设 的 功能 ,用 户 可 以 在 创建 自 定义 作业 时 更 有 效 地 
满足 业务 需求 。 

以 上 的 描述 让 读者 对 InfoSphere Streams 提供 的 功能 有 初步 的 了 解 。 接 下 来 让 读者 进 
一 步 了 解 InfoSphere Streams 如 何 适 应 完整 的 数据 处 理 环境 。 


5.2.9 InfoSphere Streams 集成 


InfoSphere Streams 并 不 是 在 真空 中 运行 , 它 是 IBM 大 数据 平台 的 关键 组 件 。 在 企业 
集成 的 过 程 中 ,InfoSphere Streams 可 以 从 不 同 来 源 读 取 数 据 并 将 数据 写 人 不同 的 目标 , 比 
如 文件 ,网络 连接 (TCP、UDP、HTTP 等 ) 和 消息 队列 (WebSphere MQ 和 Active MQ), 
InfoSphere Streams 包含 的 操作 符 可 与 使 用 金融 信息 交换 (Financial Information 
eXchange,FIX) 协 议 的 金融 市 场 相 配合 。 

除了 这 些 接 口 之 外 ,InfoSphere Streams 还 适用 于 多 种 IBM 产品 ,包括 InfoSphere 
BigInsights, Data Explorer, SPSS 和 Cognos。 此 外 , 它 还 可 以 利用 R Project 统计 分 析 工 
具 。 随 着 InfoSphere Streams 的 发 展 ,还 会 添加 更 多 的 接口 。 


5.2.10 导航 信息 中 心 


信息 中 心包 含 的 信息 适用 于 系统 管理 员 InfoSphere Streams 管理 员 和 应 用 程序 编程 
人 员 。 本 节 主 要 介绍 应 用 程序 开发 人 员 的 信息 需求 。 

图 5.17 显示 了 信息 中 心 的 各 个 主要 部 分 和 子 部 分 。 作 为 一 名 开发 人 员 ,可 能 想 要 查看 
所 有 部 分 来 了 解 与 InfoSphere Streams 相关 的 每 件 事 。 

在 完成 最 初 的 浏览 之 后 ,开发 人 员 很 可 能 会 花费 大 量 的 时 间 查 看 参考 资料 。 开 发 人 员 
需要 了 解 SPL 语言 .可 用 的 功能 、 可 用 的 操作 符 以 及 如 何 使 用 它们 。 

在 Reference | Language reference 中 有 两 个 部 分 : 标注 查询 语言 (Annotation Query 
Language, AQL) 和 流 处 理 语 言 (Streams Processing Language,SPL)。 如 果 不 打 算 使 用 
Text 工具 集 下 的 文本 分 析 和 TextExtract 操作 符 , 那 么 现在 可 以 忽略 AQL 部 分 。 当 决定 
进行 文本 分 析 时 ,用 户 可 能 想 要 使 用 InfoSphere Biglnsights 2. 1 信息 中 心 , 其 中 包含 有 关 
各 种 主题 的 信息 ,这 些 信息 比 InfoSphere Streams 信息 中 心包 含 的 信息 还 要 和 多。 

SPL 语言 部 分 包含 了 解 SPL 语言 .数据 类 型 的 使 用 、 功 能 和 如 何 调用 工具 集 操 作 符 的 
所 有 信息 。 一 旦 掌握 了 这 种 语言 ,下 一 个 问题 就 可 能 是 “哪些 功能 可 用 来 处 理 我 的 数据 ?” 这 
个 问题 的 简要 回答 是 SPL 不 包括 任何 功能 。 这 可 能 是 真 的 ,但 所 有 应 用 程序 都 隐 式 包含 
“标准 工具 集 ”。 本 节 包 含 的 功能 可 用 于 文件 处 理 、 数 学 运算 、 字 符 串 处 理 、 时 间 控 制 和 XML 
处 理 。 本 小 节 还 包含 用 于 日 志 记 录 、 跟 踪 、 断 言 等 的 实用 功能 。 在 查找 关于 某 种 功能 的 信息 
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时 ,最 简单 的 方法 就 是 在 页 面 中 搜索 (使 用 Ctrl 十 F) 功 能 名 称 或 相关 关键 词 。 


[> info Center Home 
m @ Product overview 
ge Installing 
m @ configuring 
se Administering 
E @ Accelerating the value of big data analytics 
EB Developing 
E [Í Developing applications by using Streams Studio 
EJ Gf Developing applications that use REST APIs 
Lf Tutorial: Developing a simple stream application 
Œ (Í Tutorial: Developing another simple stream application 
Œ [Í Tutorial: Introducing Streams Processing Language 
F GÀ Sample: Commodity Purchasing Application 
E @ Troubleshooting 
F Ë Reference 
E (Í API reference 
E [Í Language reference 
田 Programming reference 
Ef Toolkit reference 
B Command reference 
E € ibm.com: About IBM - Privacy - Contact 


图 5.17 信息 中 心 部 分 


5.3 IBM InfoSphere BigInsights 


5.3.1 IBM InfoSphere BigInsights 简介 


BigInsights 是 一 个 分 析 平 台 , 可 帮助 公司 将 复杂 的 互联 网 级 信息 集 转换 为 洞察 。 它 包 
含 一 个 套装 的 Apache Hadoop 发 行 版 (具有 高 度 简 化 的 安装 流程 ) 和 用 于 应 用 程序 开发 、 数 
据 移动 和 集群 管理 的 关联 工具 。 得 益 于 简单 性 和 可 伸缩 性 ,Hadoop(MapReduce 框架 的 一 
种 开源 实现 ) 在 行业 和 学 术 界 获得 的 巨大 的 成 功 。 除 了 Hadoop 之 外 ,BigInsights 中 的 其 他 
开源 技术 ( 除 Jaql 外 的 所 有 技术 都 属于 Apache Software Foundation 项 目 ) 包 括 : 

Pig: 该 平台 提供 了 一 种 高 级 语言 来 表达 分 析 大 数据 集 的 程序 。Pig 配备 了 一 个 编 
译 器 ,可 将 Pig 程序 转换 为 Hadoop 框架 执行 的 MapReduce 作业 序列 。 

Hive: 一 个 构建 于 Hadoop 环境 之 上 的 数据 仓库 解决 方案 。 它 为 Hadoop 的 非 结 构 
化 世界 带 来 了 人 们 熟悉 的 关系 数据 库 概 念 ,比如 表 、 列 和 分 区 ,以 及 SQL 的 一 个 子 
集 (HiveQL)。Hive 查询 被 编译 为 使 用 Hadoop 执行 的 MapReduce 作业 。 

Jaql: IBM 专 为 JSON (JavaScript Object Notation. JavaScript 对 象 表示 法 ) 开 发 的 
一 种 查询 语言 ,提供 了 一 种 类 似 SQL 的 接口 。Jaql 适度 地 处 理 嵌 套 , 高 度 面向 函 
数 ,而 且 非 常 灵 活 。 它 适用 于 松散 的 结构 化 数据 ,是 HBase 列 存储 和 文本 分 析 的 
接口 。 

HBase: 一 个 面向 列 的 NoSQL 数据 存储 环境 , 旨 在 支持 Hadoop 中 大 型 fü Bü P 3ë 
的 表 。 

Flume: 一 种 分 布 式 、 可 靠 且 可 用 的 服务 ,用 于 高 效 地 移动 生成 的 大 量 数 据 。Flume 
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非常 适合 从 多 个 系统 中 收集 生成 的 日 志 , 为 它们 插入 HDFS( Hadoop Distributed 

File System, Hadoop 分 布 式 文 件 系 统 ) 。 

Lucene: 一 个 搜索 引擎 库 ,提供 了 高 性 能 的 、 全 功能 的 文本 搜索 。 

Avro: 一 种 数据 序列 化 技术 ,使 用 JSON 来 定义 数据 类 型 和 协议 ,以 一 种 紧凑 的 二 

进 制 格式 对 数据 执行 序列 化 。 

ZooKeeper: 一 种 维护 配置 信息 和 命名 ,提供 分 布 式 同步 和 分 组 服务 的 集中 化 服务 。 

Oozie: 一 个 工作 流 调度 程序 系统 ,用 于 管理 和 编排 Apache Hadoop 作业 的 执行 

过 程 。 

此 外 ,BigInsights 发 行 版 还 包含 以 下 IBM 独 有 的 技术 : 

* BigSheets: 一 种 基于 浏览 器 、 类 似 电子 表格 的 查询 和 探索 接口 ,使 业务 用 户 能 够 轻 
松 地 收集 和 分 析 数 据 ,利用 Hadoop 的 强大 功能 。 它 提供 了 内 置 的 阅读 器 ,可 处 理 
多 种 常见 格式 的 数据 ,包括 JSON ,逗号 分 隔 值 (CSV) 和 制 表 符 分 隔 值 (TSV) 。 

* Text analytics: 常见 业务 实体 的 文本 注释 符 的 一 个 预先 构建 的 库 。 它 提供 了 丰富 
的 语言 和 工具 来 构建 自 定义 位 置 注释 符 。 

* Adaptive MapReduce: 一 个 IBM Research 解决 方案 ,通过 更 改 MapReduce 任务 的 
处 理 方式 来 加 速 小 型 MapReduce 作业 的 执行 。 


5.3.2 IBM InfoSphere BigInsights 3. 0 介绍 


如 图 5. 18 所 示 ,IBM 在 Hadoop 开源 框架 的 基础 上 进行 了 大 量 的 开发 和 扩展 ,陆续 将 
丰富 的 高 级 文本 分 析 (Advanced Text Analytics Toolkit ,研发 代码 SystemT)、 机 器 学 习 
(Machine Learning Toolkit ,研发 代码 SystemML), GPFS File Place Optimizer (GPFS- 
FPO)、IBM LZO 压缩 针对 Jaql 的 R 模 块 扩展 \ 改 进 的 工作 负载 调度 (Intelligent 
Scheduler), Á 3& |y. MapReduce C Adaptive MapReduce), 基于 浏览 器 的 可 视 化 工具 
(BigSheets)\ 大 规模 索引 、 搜 索 解 决 方案 构建 框架 (BigIndex)、 统 一 的 SQL 接口 (BigSQL)、 
大 规模 并 行 处 理 SQL 引擎 (MPP SQL Engine, IBM Big SQL) 等 纳入 到 InfoSphere 
BigInsights 中 ,并 增强 了 高 可 用 性 、 可 扩展 性 、 安 全 性 、 易 用 性 、 监 控 和 告警 等 ,通过 支持 
LDAP 身份 验证 增强 安全 性 (另外 还 能 够 提供 可 持 拔 身份 验证 支持 ,支持 Kerberos 等 其 他 
协议 ) ,构建 了 一 个 完整 的 企业 级 大 数据 平台 。 该 平台 为 开发 人 员 提 供 了 全 面 的 开发 和 运行 
时 环境 来 构建 高 级 分 析 应 用 程序 ,为 企业 用 户 提 供 了 完善 的 分 析 工 具 来 分 析 大 数据 ,从 而 使 
与 大 数据 分 析 相 关 的 时 间 价 值 曲线 变 平 。 

InfoSphere BigInsights 是 企业 级 的 海量 大 数据 存储 和 分 析 平 台 , 支 持 对 结构 化 、 半 结 
构 化 和 非 结 构 化 海量 数据 的 存储 和 快速 分 析 , 提 供 多 节点 的 分 布 式 计算 ,可 以 随时 增加 节点 
提升 数据 处 理 能 力 ,通过 集成 的 安装 程序 简化 安装 流程 ,通过 与 IBM 数据 分 析 软 件 的 深度 
集成 为 企业 用 户 提供 强大 的 分 析 能 力 ,并 提供 开放 性 接口 和 集成 能 力 。BigInsights 作为 基 
于 企业 级 的 海量 大 数据 存储 和 分 析 平 台 ,并 不 是 对 数据 仓库 的 替代 ,而 是 对 传统 数据 仓库 的 
一 种 补充 和 延伸 ,和 数据 仓库 一 起 构成 了 更 广泛 的 大 数据 平台 。BigInsights 以 Apache 
Hadoop 及 其 相关 开源 项 目 作 为 核心 组 件 ,IBM 将 继续 保持 开源 项 目的 完整 性 ,防止 与 核心 
分 离 或 偏离 ,BigInsights 3. 0 中 Hadoop 开源 组 件 所 对 应 的 版 本 如 表 5. 1 所 示 。 
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图 5.18 InfoSphere BigInsights 企业 版 组 件 


(9) IBM Infosphere BigInsights 


表 5.1 Biglnsights 开源 组 件 对 应 版 本 


Component BigInsights 2. 1 BigInsights 2. 1. 2 BigInsights 3. 0 
Hadoop 1.1.1 2.2.0 2.2.0 
HBase 0.94.3 0.96.0 0.96.0 
Hive 0.9.0 0.12.0 0.12.0 
Pig 0.10.0 0.12.0 0.12.0 
Zookeeper 3.4.5 3.4.5 3.4.5 
Oozie 3.2.0 3.3.2 3.3.2 
Hcatalog 0.4.0 Now part of Hive 0. 12. 0 Now part of Hive 0. 12.0 
Sqoop 1.4.2 1.4.3 1.4.3 
Flume 1.3.0 13.1 Ll 
JAQL 2.0.0 2.0.0 2.0.0 
Lucene 3.3.0 3.3.0 4.7.0 
Solr NA NA 4.7.2.1 
Avro 1.7.2 1.7.2 1.7.4 


5.3.3 IBM Big SQL 3.0 


IBM Big SQL 3. 0 是 一 个 大 规模 并 行 处 理 SQL 引擎 (MPP SQL Engine) ,可 以 直接 部 
署 在 物理 的 HDFS 集群 上 。 通 过 使 用 一 个 低 延 时 并 行 执行 基础 架构 ,并 将 处 理 操作 放 在 数 
据 所 在 的 节点 ,Big SQL 3. 0 KIT native 方式 的 Hadoop 数据 访问 ,包括 读 和 写 操作 。Big 
SQL 3. 0 数据库 基础 架构 提供 一 个 所 有 数据 的 逻辑 视图 (通过 Hive 元 数据 管理 ) ,查询 编 
译 视图 ,以 及 为 最 优 的 SQL 处 理 提供 优化 和 运行 时 环境 。 针 对 复杂 嵌 套 的 决策 支持 查询 ， 
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Big SQL 3.0 专门 做 了 优化 处 理 。Big SQL 3.0 接口 完全 支持 SQL 2011 标准 、 支 持 存储 过 
程 、 用 户 自 定义 函数 、 广 泛 的 数据 类 型 .JDBC/ODBC 接口 等 。 

Big SQL 所 有 的 数据 都 保持 原 有 的 格式 存储 在 Hadoop 集群 中 ,Big SQL 对 数据 的 格 
式 没 有 特殊 的 要 求 ,Hadoop 表 的 定义 是 由 Hive Metastore 定义 和 共享 的 ,使 用 Hadoop 的 
标准 目录 。Big SQL 共享 Hive 接口 进行 物理 读 取 , 写 人 和 理解 Hadoop 中 存储 的 数据 。 简 
单 来 说 ,Big SQL 中 没有 任何 的 数据 存储 ,数据 是 存放 在 Hadoop 集群 中 的 ,在 Big SQL 中 
定义 的 表 实 际 上 是 一 个 在 Hive 中 定义 的 表 。 通 过 Apache HCatalog, Hive 中 定义 的 表 可 
以 作为 很 多 工具 的 有 效 数 据 源 。 最 终 ,任何 Hadoop 应 用 程序 都 可 以 访问 这 些 大 规模 共享 
的 分 布 式 文件 系统 中 的 简单 文件 。 

Big SQL 既 可 以 运行 在 POWER Linux (Red Hat) 上 ,也 可 以 运行 在 x64 Linux 上 ,如 
Red Hat 和 SUSE Linux。 

Big SQL 3.0 汇集 了 成 熟 高 效 的 IBM SQL 编译 器 和 运行 时 引擎 ,通过 与 Hive 数据 库 
目录 和 L/O 层 一 起 工作 ,允许 用 户 执行 SQL 2011 标准 的 查询 ,并 保证 企业 级 的 性 能 。 通 过 
引入 SQL PL 兼容 性 ,Big SQL 3.0 相 比 BigInsights 2. 1 中 Big SQL 包含 的 功能 ,已 经 进行 
了 大 大 的 扩展 ,具体 包括 存储 过 程 、SQL-bodied 函数 和 丰富 的 scalar 库 、 表 和 OLAP PR 


5.3.4 企业 集成 


如 图 5. 19 所 示 , 通 过 Big SQL 3. 0 的 联邦 功能 ,用 户 可 以 对 很 多 数据 源 如 DB2、 
Oracle, Teradata, IBM PureData System for Analytics (PDA), IBM PureData System for 
Operational Analytics(PDOA) 等 进行 联邦 访问 。 联 邦 功 能 允许 用 户 在 同一 个 SQL 语句 内 
给 各 个 关系 型 数据 源 发 送 分 布 式 的 请 求 。 通 过 Big SQL 3.0 提供 的 丰富 SQL 功能 ,很 多 BI 
工具 如 IBM Cognos BI、Microstrategy 和 Tableau 等 可 以 方便 地 访问 Hadoop 集群 中 的 数 
据 并 执行 各 种 处 理 。 

BigInsights 3.0 可 以 集成 多 种 产品 ,支持 与 大 量 数 据 源 进行 数据 交换 (比如 DB2、 
Teradata、PureData for Analytics 等 ), 更 多 的 数据 源 可 以 通过 JDBC InfoSphere Steams、 
InfoSphere DataStage 和 Sqoop 等 进行 数据 交换 ,另外 BigInsights 支持 与 IBM InfoSphere 
Data Explorer ( Vivisimo ) InfoSphere Guardium, Cognos Business Intelligence, SPS 
Analytic Server, WAS 8. 5 Liberty Profile 和 Rational & Data Studio 等 集成 。 

BigInsights 可 以 和 InfoSphere Data Explorer( 联 邦 发 现 和 导航 工具 ) 进 行 索引 和 界面 
集成 ,通过 索引 可 以 实现 联邦 访问 ,通过 界面 集成 用 户 可 以 方便 地 同时 使 用 两 个 产品 。 另 
外 ,Cognos BI( 特 别 是 Social Media Analysis) fll InfoSphere Streams 也 和 BigInsights 进行 
了 界面 集成 。 通 过 连接 器 ,BigInsights 可 以 和 PureData System for Analytics 进行 双向 数 
据 交 换 , BigInsights 3. 0 中 包含 PureData System for Analytics UDFs. 用 户 编 写 的 
PureData System for Analytics 应 用 程序 可 以 使 用 这 些 UDF 访问 大 数据 和 运行 大 数据 操 
作 。 同 样 通 过 高 速 连接 器 , BigInsights 可 以 并 行 访问 IBM DB2、 Teradata, InfoSphere 
Warehouse、PureData System for Transactions 和 PureData System for Operational 
Analytics, it JDBC 连通 性 (Jaql 的 JDBC 接口 ) ,BigInsights 可 以 访问 更 多 的 数据 源 。 

DataStage 除了 改进 与 HDFS 相关 的 集成 ,还 新 增 了 与 通用 MapReduce 作业 相关 的 集 
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成 ,并 和 BigInsights 进行 了 紧密 结合 。BigInsights DataStage 连接 器 已 经 与 HDFS 和 
GPFS-FPO 实现 了 全 面 的 集成 ,可 以 充分 利用 集群 架构 的 优势 ,以 便 将 所 有 批量 数据 并 行 
写 入 同一 文件 。 通 过 与 DataStage 集成 ,BigInsights 可 以 成 功 和 绝 大 多 数 软件 产品 实现 快 
速 数 据 交 换 。 

通过 Hive 或 Big SQL 方便 用 户 在 Cognos BI 中 使 用 存储 在 BigInsights 中 的 数据 。 通 
过 及 包装 器 ,BigInsights 3. 0 可 以 帮助 人 们 以 集群 方式 运行 R 应 用 程序 (BigInsights 则 通 
过 Jaql 对 R Project 进行 了 扩展 ,使 其 可 以 分 布 式 并 行 运行 。 用 户 可 以 基于 Jaql 
MapReduce 运行 R 查询 )。 在 BigInsights 3. 0 中 还 包含 与 WebSphere 8. 5 Liberty Profile 
集成 ,提供 高 性 能 、 安 全 的 REST 访问 。 另 外 ,BigInsights 3. 0 还 支持 与 RAD 和 Rational 
Team Concert & Data Studio 协作 和 开发 整合 。 

通过 IBM SPSS Analytic ServerCIAS) ,用 户 可 以 方便 地 在 SPSS Modeler 客户 端 或 者 
SPSS Analyitc Catalyst 中 基于 BigInsights 中 的 数据 进行 数据 挖掘 建 模 。 


与 关系 型 数据 库 和 BI 工具 集成 

NEW& EMBEDED 通过 Big SQL 3.0 提 

供 的 联邦 功能 和 丰富 SQL 功能 
IBMInfoSphere Data InfoSphere Streams 
Explorer (Vivisimo) Í @ InfoSphere BigInsights BUNDLED: Enables real- 
BUNDLED: Indexing i time, continuous analysis of 
mtegmion S Ca | Leone 
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sssDeyelopmentIoos rJ | | InfoSphere DataStage 
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JDBC conneciivi ( ) Teradata 

" NEW: Can use Teradata 
Audi ^ Guardium | | 人 Esc | | ConneciorforHadoopmove 
udiling data between the 


BigInsights and Teradata 


PureData for 
Analytics WebSphere 


WAS 8.5 Liberty Profile — 


Open source Hadoop components 


Query and join data 
using UDFs 


high performance secure 
REST access 


Cognos Business 


Intelligence Rational & Data Studio 
BUNDLED: Supportfor R RAD, Rational Team 
Hive; Business Application thatallows users to execute Concert & Data Studio 
Intelligence capabilities R jobs directly from Biglnsights web collaborative development 


console integration 


图 5.19 企业 集成 


如 图 5. 20 所 示 ,IBM SPSS Analytic Server 是 处 于 客户 应 用 程序 和 Hadoop 集群 中 间 
的 数据 分 析 引 擎 。 用 户 通 过 使 用 SPSS Modeler 客户 端 或 者 SPSS Analyite Catalyst, 将 各 
种 分 析 请 求 发 送 给 SPSS Analytic Server. SPSS Analytic Server 将 协调 作业 将 其 运行 在 
Hadoop 集群 并 将 结果 返回 给 客户 端 应 用 程序 。 

针对 BigInsights 的 审计 和 监控 还 可 以 使 用 IBM InfoSphere Guardium。 通 过 使 用 IBM 
InfoSphere Guardium, 用 户 可 以 获取 有 针对 性 的 、 可 操作 的 信息 , 极 大 地 简化 了 用 户 审 计 过 
程 。 通 过 定义 安全 策略 ,用 户 可 以 指定 需要 保存 什么 数据 以 及 如 何 应 对 策略 违规 。 数 据 事 
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图 5.20 IAS 体系 结构 


件 直 接 写 入 InfoSphere Guardium 收集 器 ,特权 用 户 甚至 都 没有 机 会 访问 并 隐藏 他 们 的 踪 
迹 。 开 箱 即 用 的 报告 可 以 让 用 户 立 即 开 始 快 速 运行 BigInsights 监控 ,而 且 这 些 报告 可 以 很 
容易 通过 定制 来 符合 用 户 的 审计 需求 。IBM InfoSphere Guardium 主要 使 用 探测 器 ( 称 为 
S-TAP, 用 于 软件 ) 对 BigInsights 进行 监控 ,无 须 依 赖 BigInsights 的 审计 日 志 即 可 监控 所 
有 相关 操作 ,无须 对 系统 软件 或 应 用 程序 进行 任何 更 改 。IBM InfoSphere Guardium 对 
BigInsights 监控 的 事件 包括 : 

。 会 话 和 用 户 信 息 。HDFS 操作 : 命令 (cat ,tail ,chmod .chown ,expunge, 等 等 ) 。 

* MapReduce 作业 : 作业 操作、 权限 。 

。 异常 : 比如 授权 故障 。 

* Hive/HBase 查询 : 改变 .计数 .创建 .删除 获取、 放置 、 列 出 ,等 等 。 

另外 BigInsights 中 还 包括 一 个 集成 功能 , 即 Guardium Proxy, 可 读 取 日 志 消 息 并 发 送 
到 InfoSphere Guardium 用 于 分 析 和 报告 。 有 了 这 个 代理 , BigInsights 就 可 以 将 消息 从 
Hadoop 日 志 发 送 到 InfoSphere Guardium 收集 器 。 该 代理 的 优势 包括 以 下 几 点 : 

° 易于 启动 和 和 运行。 不 需要 安装 S-TAP 或 配置 端口 。 只 需要 在 NameNode 启用 代理 

就 可 以 使 用 了 。 
。 由 于 代理 使 用 Apache 日 志 数 据 作为 消息 发 送 到 InfoSphere Guardium, 所 以 需要 从 
消息 (例如 状态 和 心跳 信息 ) 中 过 滤 的 噪音 就 很 少 。 

。 Guardium 对 支持 新 版 的 BigInsights 利用 消息 协议 变更 不 存在 延迟 。 

限制 : 由 于 Hadoop 没有 将 异常 记录 到 其 日 志 中 ,所 以 没有 办 法 将 异常 发 送 到 
InfoSphere Guardium。 如 果 需 要 异常 报告 , 那 就 需要 实现 一 个 STAP。 除 此 之 外 ,不 支持 
监控 HBase 或 Hive 查询 ,但 可 以 从 Hive 和 HBase 看 到 基础 的 MapReduce 或 HDFS 
消息 。 


5.3.5 GPFS File Place Optimizer 


GPFS File Place Optimizer (GPFS-FPO) 之 前 也 被 称 为 GPFS 无 共享 集群 文件 系统 
(General Parallel File System-Shared Nothing Cluster. GPFS-SNC). JÉ IBM 2009 年 在 
GPFS 的 基础 上 扩展 而 来 的 ,使 其 能 够 处 理 带 有 GPFS-FPO 的 Hadoop( GPFS 最 初 只 能 作 
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为 存储 区 域 网 络 (SAN) 文 件 系 统 使 用 )。GPFS-FPO 遵循 POSIX, 没 有 主 控 的 NadmeNode 
节点 ,而 是 将 元 数据 分 散 到 集群 节点 中 ,避免 了 单 点 故障 。GPFS-FPO IK GPFS 增加 了 局 
部 性 认 知 功能 、 元 数据 块 . 写 人 关联 和 可 配置 的 复制 和 可 配置 恢复 策略 等 。 由 于 GPFS- 
FPO 是 GPFS 的 扩展 ,本 身 还 是 GPFS, 所 以 在 GPFS-FPO 中 可 以 实现 同样 的 稳定 性 、 灵 活 
性 和 性 能 ,另外 GPFS-FPO 通过 分 层 存 储 管理 (HSM) 以 不 同 的 检索 速度 管理 和 使 用 磁盘 
驱动 器 ,管理 不 同 热度 的 数据 ,保证 数据 位 于 最 近 硬件 上 。 

局 部 性 认 知 功能 : 负责 提供 集群 中 文件 位 置 给 JobTracker 以 便 JobTracker 根据 这 些 
位 置信 息 选择 需要 运行 的 本 地 任务 副本 以 提高 性 能 。 

元 数据 块 : 典型 的 GPFS 数据 块 大 小 一 般 是 256KB 大 小 ,而 Hadoop 中 的 数据 块 通常 
比 这 个 大 得 多 ,比如 BigInsights 中 建议 数据 块 大 小 为 128MB, 开 源 Hadoop 中 数据 块 大 小 
默认 是 64MB, 为 了 满足 大 数据 块 的 使 用 需求 ,GPFS-FPO 通过 将 多 个 GPFS THE Be D E 
一 起 组 成 更 大 的 数据 块 , 也 就 是 元 数据 块 ,方便 运行 map 任务 ; 对 Hadoop 以 外 的 文件 还 使 
用 较 小 的 数据 块 ,从 而 确保 了 各 种 应 用 程序 可 以 在 一 个 集群 中 运行 ,保证 了 整个 集群 的 性 
能 ,HDFS 则 不 具备 这 样 的 优点 ( 非 Hadoop 的 文件 无 法 直接 在 HDFS 集群 上 运行 ,需要 在 
本 地 文件 系统 而 非 HDFS 集群 上 运行 这 些 文件 ), 比 如 BigIndex 或 Lucene 全 文 索引 在 
GPFS-FPO 中 可 以 运行 ,而 HDFS 则 不 行 。 

写 和 关联 和 可 配置 的 复制 : 允许 为 文件 定义 位 置 策略 ,默认 情况 下 复制 策略 为 第 一 个 
副本 为 计算 机 本 地 副本 ,第 二 个 副本 是 机 架 本 地 副本 ,第 三 个 副本 则 以 条 带 形式 分 布 在 集群 
中 的 其 他 机 架 之 间 (HDFS 不 一 样 ,一 般 情况 HDFS 其 他 两 个 副本 会 在 另外 (远程 ) 机 架 上 
的 不 同 节点 上 ,上 且 HDFS 不 支持 条 带 化 )。 可 以 指定 一 组 特定 的 文件 始终 存储 在 一 起 ,以 便 
应 用 程序 从 同一 个 位 置 读 取 数 据 (HDFS 无 法 做 到 )。 

HDFS 会 使 用 NameNode 节点 统一 存储 和 维护 元 数据 , GPFS-FPO 则 不 需要 
NameNode 或 任何 类 似 的 硬件 充当 元 数据 中 央 存 储 区 ,元 数据 在 集群 中 多 个 节点 间 共 享 (分 
布 式 元 数据 ) ,通过 大 量 数据 块 随机 读 取 提 供 了 性 能 ,避免 了 HDFS 中 访问 元 数据 集中 存储 
的 NameNode 造成 性 能 瓶颈 。 另 外 ,通过 客户 端 缓 存 ,GPFS-FPO 提升 了 随机 工作 负载 的 
工作 性 能 。GPFS-FPO 是 一 种 内 核 级 文件 系统 (这 点 和 HDFS 不 同 ), 全 面 支持 POSIX, I 
用 程序 可 以 方便 地 查看 GPFS-FPO 中 存储 的 文件 ,并 对 文件 进行 各 种 操作 。 在 GPFS-FPO 
中 ,MapReduce 应 用 程序 或 其 他 应 用 无 须 追 加 内 容 即 可 更 新 现 有 的 集群 文件 ,还 能 保证 多 
个 应 用 程序 并 行 写 人 Hadoop 集群 中 的 同一 文件 (HDFS 无 法 实现 上 述 功 能 )。 在 GPFS- 
FPO 集群 中 有 多 种 管理 角色 承担 不 同 的 职责 ,比如 仲裁 节点 (Q)、 集 群 管理 器 (CM) 、 主 集 
和 群 配置 服务 器 (P)、 辅 助 配置 服务 器 (S) ,文件 系统 管理 器 (FSMD) 节 点 和 元 节点 (MN) 等 。 


5.3.6 IBM Adaptive MR 


IBM Adaptive MR 是 一 个 优化 的 MapReduce 运行 时 环境 ,通过 使 用 C++/C 重 写 了 
Job Tracker/Task Tracker, 采 用 松 耦 合 的 resource manager 和 Job trackers, 采 用 SOA 7 
构 ,实现 了 数据 存储 和 共享 服务 ,减少 了 多 个 tasks 之 间 的 JVM 交互 ,使 用 原生 的 TCP Bh 
议和 基于 marshalling 的 二 进 制 传输 格式 ,代替 http 和 text/ XML. task tracker 使 用 Push 
协议 ,避免 task tracker pull task 时 由 于 轮训 执行 pull 的 间隔 而 带 来 的 延迟 。 图 5. 21 为 
IBM Adaptive MR 运行 时 环境 。 
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图 5.21 IBM Adaptive MR 运行 时 环境 
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使 用 Apache MapReduce 执行 作业 时 .Shuffle 需要 将 Map 输出 的 数据 写 入 到 硬盘 ,再 
将 数据 复制 到 Reduce 节点 ,而 经 过 BigInsights 优化 的 Shuffle 采用 将 Map 输出 的 数据 尽 
量 保持 在 内 存 , 不 能 保持 时 再 写 和 人 数据 到 硬盘 ,Reduce 节点 则 尝试 从 内 存 中 获取 数据 。 同 
样 在 输入 数据 时 ,经 过 BigInsights 优化 的 Shuffle 也 尽量 保持 在 内 存 , 不 能 保持 时 再 写 入 到 
Reduce 节点 的 硬盘 。 数 据 都 保持 在 内 存 中 ,明显 提升 了 Shuffling 效率 。 


5.3.7 IBM BigSheets 


BigSheets 是 Biglnsights 提供 的 数据 发 现 和 可 视 化 分 析 工 具 之 一 。Hadoop 本 身 使 大 
数据 分 析 成 为 可 能 ,编程 人 员 通 过 使 用 mapReduce 编程 探索 数据 ,但 就 像 传 统 数据 仓库 构 
建 方式 一 样 , 开 发 人 员 如 果 熟 悉数 据 仓 库 也 可 以 基于 编程 的 方式 实现 运营 分 析 ,可 对 大 多 数 
业务 用 户 以 及 管理 用 户 来 说 非常 不 方便 ,BigSheets 就 是 BigInsights 提供 的 基于 浏览 器 的 
电子 表格 风格 的 大 数据 分 析 工 具 , 用 户 无 须 编程 就 可 使 用 BigSheets 对 海量 数据 实施 分 析 ， 
无 论 采 用 哪 种 数据 结构 。 如 图 5. 22 Bron , 当 数 据 收集 完成 后 ,用 户 可 以 在 电子 表格 界面 查 
看 数据 样本 和 操控 数据 ,比如 可 以 合并 不 同 集合 的 列 , 运 行 公式 或 过 滤 数 据 等 。 

如 图 5. 23 所 示 ,在 BigSheets 中 ,将 使 用 master workbooks( 主 工作 短 ) .workbooks( 工 
WERA sheets( 表 ) 采 集 数据 。master workbook 主要 负责 从 一 个 输出 结果 文件 中 获取 数 
据 ,进行 数据 采集 的 初始 化 工作 ,master workbooks 中 的 数据 是 只 读 的 ,用 户 可 以 基于 最 初 
的 原始 数据 浏览 数据 集 。 输 出 结果 文件 可 以 通过 上 传 一 个 文件 或 通过 使 用 应 用 程序 收集 数 
据 方式 来 创建 。 在 master workbook 中 通过 一 个 映射 (map) 或 图 表 (chart) 可 以 进行 数据 的 
简单 可 视 化 ,如 果 想 进一步 探索 数据 ,需要 在 master workbook 的 基础 上 创建 新 的 
workbooks。workbooks 包含 的 数据 来 自 一 个 或 多 个 master workbooks 或 child 
workbooks, 用 户 可 以 定制 数据 的 格式 、 内 容 和 结构 。 可 以 创建 workbooks 来 保存 一 组 特定 
的 数据 结果 集 , 重 定义 数据 和 探索 数据 。 可 以 基于 一 个 master workbook 或 其 他 的 
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5.23 BigSheets 概述 


workbook 创建 workbooks, 如 果 workbook 是 基于 一 个 master workbook 创建 的 ,那么 该 
workbook 被 称 为 该 master workbook 的 child。 如 果 workbook 是 基于 另外 一 个 
workbook ,新 的 workbook 则 是 已 经 存在 的 workbook(parent workbook) 的 child。 在 这 些 
workbooks 和 它们 所 有 的 后 代 之 间 就 建立 了 工作 簿 相关 关系 。workbooks 可 以 拥有 一 个 或 
多 个 sheets,sheets 是 应 用 不 同 的 功能 分 析 和 查看 的 数据 子 集 的 数据 表示 ,sheet 中 的 每 一 
行 表 示 数 据 的 一 条 记录 ,每 一 列表 示 该 记录 的 一 个 属性 。 可 以 在 workbooks 中 添加 sheets 
逐步 编辑 和 浏览 数据 。 上 默认 情况 下 ,在 workbooks 中 的 最 后 生成 的 sheet 被 称 为 Result 
sheet, 当 保 存 和 运行 workbook 时 ,Result sheet 中 的 数据 是 workbook 的 输出 或 结果 。 用 
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户 可 以 基于 Results sheet 创建 maps 或 charts 来 可 视 化 结果 数据 。 

如 图 5. 24 所 示 ,在 BigSheets 2. 0 中 ,集中 式 的 仪表 盘 人 允许 业务 分 析 人 员 利 用 新 的 图 形 
引擎 使 用 BigSheets( 类 似 电子 表格 的 可 视 化 工具 ) ,基于 数据 获得 洞察 ,查看 分 析 应 用 程序 
结果 和 监控 指标 等 。 
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图 5.24 集中 式 的 仪表 盘 


S.3.8 高 级 文本 分 析 


文本 分 析 技 术 对 大 数据 分 析 和 探索 非常 重要 ,可 以 帮助 用 户 进行 日 志 分 析 、 电 子 邮 件 分 
析 ( 比 如 用 于 欺诈 分 析 ) ,社交 媒 体 分 析 ( 比 如 评估 客户 情绪 等 ) 以 及 其 他 各 种 文本 相关 分 析 。 
BigInsights 纳入 了 高 级 文本 分 析 (Advanced Text Analytics Toolkit ,研发 代码 SystemT) 功 
能 ,用 于 读 取 非 结构 化 文本 和 提炼 洞察 。Advanced Text Analytics Toolkit 的 核心 是 
Annotator Query Language(AQL) ,这 是 一 种 全 声明 性 文本 分 析 语 言 ( 没 有 “ 黑 盒 ”) ,所 有 模 
块 均 可 自 定义 ,也 就 是 说 ,所 有 数据 都 采用 相同 语义 进行 编码 ,并 遵循 相同 的 优化 规则 。 
AQL 提供 类 似 SQL 语言 用 于 构建 提取 程序 。 通 过 文本 分 析 纳 入 到 应 用 程序 ,可 以 读 取 非 
结构 化 的 文本 ,并 从 信息 中 获取 洞察 。 如 图 5. 25 所 示 ,详细 的 文本 分 析 生 命 周期 包括 开发 
文本 分 析 extractors ,运行 extractors 和 可 视 化 分 析 结 果 等 。 


5.3.9 Solr 


Solr 是 一 款 受 到 广泛 欢迎 的 开源 高 性 能 企业 搜索 平台 ,是 基于 Apache Lucene 项 目 开 
发 的 ,其 主要 的 功能 包括 强大 的 全 文 检索 ,命中 标示 (hit highlighting)、 层 面 搜索 (faceted 
search. BIZ TE) 、 近 实时 的 索引 ,动态 聚 类 .数据库 整合 丰富 的 文档 处 理 能 力 ( 比 如 Word, 
PDF 等 ) 和 地 理 位 置 搜索 (geospatial search) 等 。Solr 具有 非常 好 的 可 靠 性 、 可 扩展 性 和 容 
错 性 ,提供 分 布 式 索引 、 复 制 和 负载 均衡 查询 .自动 故障 转移 和 恢复 、 集 中 配置 等 等 。Solr fi 
助 世界 上 许多 大 型 互联 网 网 站 加 强 其 搜索 和 导航 功能 。 

Solr 是 基于 Java 编写 并 作为 一 个 独立 的 全 文 搜索 服务 器 运行 在 一 个 servlet 容器 中 
(如 Jetty), Solr 使 用 Lucene 的 Java 搜索 库 进 行 全 文 索引 和 全 文 检索 ,并 拥有 XML/ 
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HTTP fil JSON/Python/Ruby 等 APIs ,方便 用 户 使 用 各 种 编程 语言 访问 Solr。Solr 具有 
以 下 特点 : 

。 高 级 全 文 检索 功能 ; 

。 为 大 容量 的 网 络 流量 提供 优化 ; 

。 基于 标准 开发 接口 : XML JSON 和 HTTP; 

。 全 面 的 HTML 管理 界面 ; 

* 通过 JMX 为 监控 提供 服务 器 统计 信息 ; 

。 线性 扩展 自动 索引 复制 .自动 故障 转移 和 恢复 

。 近 实 时 的 索引 ; 

* 灵活 和 自 适应 的 XML 配置 ; 

。 可 扩展 的 插件 体系 结构 。 
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图 5.25 文本 分 析 生 命 周期 


5.3.10 改进 工作 负载 调度 


改进 工作 负载 调度 (Intelligent Scheduler) 之 前 被 称 为 Flexible Scheduler 或 FLEX 调 
度 器 ,是 在 Fair Scheduler 基础 上 扩展 而 来 ,通过 不 断 调整 执行 作业 的 插 槽 最 低 数量 来 进行 
HEFE., Intelligent Scheduler 通过 使 用 各 种 指标 来 完成 工作 负载 优化 ,用 户 可 以 根据 整个 集 
群 的 情况 选择 这 些 指标 。 开 源 Hadoop 中 自 带 了 先进 先 出 (FIFO) 基 础 调度 器 以 及 支持 蔡 
代 方 案 的 可 插 拔 架 构 : Fair Scheduler 和 Capacity Scheduler, 这 两 种 工具 都 是 为 小 型 作业 提 
供 最 低 水 平 的 资源 以 免 资 源 荐 乏 ,无 法 提供 更 多 更 全 面 的 控制 以 实现 整个 集群 的 最 佳 性 能 ， 
也 不 提供 足够 的 灵活 性 供 管理 员 自 定义 工作 负载 。 

BigInsights 包含 Fair Scheduler( 不 包含 Capacity Scheduler) 并 将 其 扩展 成 Intelligent 
Scheduler( 也 是 BigInsights 中 默认 的 调度 程序 ) ,Intelligent Scheduler 为 MapReduce 作业 
提供 一 个 自 适应 (灵活 的 ) 的 工作 流程 分 配方 案 , 基 于 用 户 选 择 的 策略 进行 优化 处 理 , 保 证 集 
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群 内 所 有 工作 随 着 时 间 推 移 都 能 得 到 一 个 公平 的 集群 资源 份额 。 

启动 Intelligent Scheduler 需要 在 mapred-site. xml 文件 中 添加 下 列 属性 : 

<property> 
< nane» jobtracker. taskScheduler </name > 
< value» com. ibm. biginsights. scheduler. WorkflowScheduler </value > 

</property> 

Intelligent Scheduler 相关 的 指标 (metric) 或 algorithm( 算 法 ) .类 优先 级 配置 是 对 每 个 
集群 有 效 , 更 改 Intelligent Scheduler 或 JobTracker 指标 (metric) 需 要 重启 。Intelligent 
Scheduler 默认 调度 指标 是 平均 响应 时 间 指 标 (average response time metrics) , Scheduler 
将 给 小 型 工作 分 配 最 大 资源 从 而 保证 这 些 作 业 尽 快 完成 。 

Intelligent Scheduler 还 支持 Fair metric 和 Max Stretch metric, 当 使 用 Fair metric 时 ， 
scheduler 将 模拟 Hadoop Fair scheduler 的 行为 ,Max Stretch metric 则 按 作业 所 需 的 资源 
量 比例 为 各 作业 分 配 资源 ,也 就 是 说 大 型 作业 具有 较 高 的 优先 级 。 调 度 指 标 和 相关 的 调度 
算法 可 以 在 mapred-site. xml 文件 中 进行 指定 : 

< property> 

< name > napred. workflowscheduler.algorithm </name > 
< value > AVERAGE RESPONSE TIME </value > 

<! —— Possible values are : 

< value > AVERAGE RESPONSE TIME < /value> 
< value > MAXIMUM STRETCH < /value > 

< value > FAIR < /value > 

The default is AVERAGE RESPONSE TIME 
--> 

</property> 

Intelligent Scheduler 还 可 以 根据 作业 优先 级 给 作业 分 配 相应 的 资源 。 通 过 配置 
Hadoop 中 JobConf 的 flex. priority 属性 ,可 以 根据 每 个 作业 或 每 个 Jaql 查询 指定 优先 级 。 
该 属性 值 是 一 个 数字 ,用 来 标识 作业 所 属 的 优先 类 (priority class) 。 默 认 情 况 下 有 3 个 优先 
类 ,也 就 是 说 flex. priority 可 以 被 设置 为 0,1 或 2, 默 认 值 为 2。 比 如 ,在 一 个 Jaql 查询 中 ， 
通过 调用 SetOptions( ) 函 数 为 该 查询 中 所 有 Hadoop 作业 优先 级 设置 成 0: 


setOptions(( conf: ( "flex.priority": 0) )); 
还 可 以 在 命令 行 中 启动 一 个 Hadoop 作业 时 指定 优先 级 ,比如 : 


hadoop jar $ BIGINSIGHTS HOME/IHC/hadoop * examples. jar - Dflex. priority = 1 < input >< output > 


5.3.11 压缩 


当 使 用 InfoSphere BigInsights 处 理 海 量 数据 时 ,可 以 考虑 使 用 数据 压缩 的 方法 减少 对 
存储 空间 的 需求 以 及 加 速 MapReduce 处 理性 能 。IBM BigInsights 平台 支持 Hadoop 开源 
框架 中 所 有 的 压缩 算法 ,并 额外 提供 IBM LZO 压缩 (扩展 名 . cmx) ,该 压缩 支持 拆 分 压缩 文 
件 ( 通 过 IBM LZO 压缩 编译 解码 器 ) ,保证 MapReduce 作业 可 以 并 行 处 理 各 压缩 拆 分 部 
分 。BigInsights 会 根据 文件 扩展 名 自动 识别 解压 缩 文件 所 需 的 压缩 算法 ,目前 支持 的 
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splittable 压缩 如 表 5. 2 所 示 。 
表 5.2 BigInsights 3. 0 支持 的 splittable 压缩 算法 


文件 扩展 名 用 来 解压 缩 文 件 的 压缩 算法 
.cmx IBM LZO 
. bz2 BZip2 
.gz Gzip 
. deflate DEFLATE 
. snappy Snappy 


5.3.12 总 结 


IBM 大 数据 平台 战略 可 以 帮助 企业 解决 大 数据 的 挑战 ,支持 与 客户 现 有 的 系统 集成 ， 
具体 包括 信息 整合 Hadoop 企业 版 系统 (InfoSphere BigInsights) , ift tt $$ (InfoSphere 
Streams), #& Jš © JE (pureData Systems, InfoSphere Warehouse), NoSQL 数据 库 
(Cloudant) ,Jll i 4i C Accelerator) 可视化 与 发 现 (InfoSphere Data Explorer) , W JH ë Jy: JF 
发 ,系统 管理 ,数据 治理 和 元 数据 管理 等 功能 。 大 数据 依赖 于 一 个 可 缩放 且 可 扩展 的 信息 基 
础 ,只 有 企业 的 信息 基础 到 位 ,并 支持 迅速 增长 的 数据 数量 、 多 样 性 和 速度 ,才能 显著 地 从 大 
数据 中 获 益 。 

IBM 大 数据 平台 提供 全 面 的 企业 级 Hadoop 平台、 流 计算 和 分 析 引 擎 。 企 业 级 数据 仓 
库 实现 各 种 数据 的 存储 、 分 析 和 挖掘 ,结构 化 数据 可 以 使 用 数据 仓库 进行 存储 和 分 析 ,结构 
化 原始 数据 、 半 结构 化 和 非 结构 化 数据 可 以 存储 到 企业 级 Hadoop 系统 中 并 进行 后 续 分 析 
处 理 , 动 态 的 半 结 构 化 和 非 结构 化 信息 流通 过 流 计算 和 分 析 引 擎 进行 处 理 、 过 滤 和 分 析 后 ， 
生成 的 结构 化 分 析 结 果 可 以 存储 到 数据 仓库 中 以 便 和 其 他 历史 信息 进行 进一步 的 深入 分 
析 ,而 获取 的 半 结 构 化 和 非 结 构 化 信息 可 以 存储 到 企业 级 Hadoop 系统 中 (当然 结构 化 的 信 
息 也 可 以 存储 到 企业 级 Hadoop 中 )。 数 据 仓库 技术 和 企业 级 Hadoop 系统 之 间 是 相互 补 
充 , 而 非 相 互 竞争 关系 。 借 助 于 企业 级 Hadoop 平台 InfoSphere BigInsights 3. 0 ,用户 可 以 
方便 地 进行 大 数据 分 析 数据 挖掘 \ 文 本 分 析 、 全 文 检索 .报表 展现 以 及 各 种 交互 式 查询 访 
问 ,使 得 企业 用 户 进 行 大 数据 分 析 的 时 间 价 值 曲 线 变 平 。 


Cos 
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6.1 大 数据 环境 下 的 信息 安全 


在 大 数据 时 代 , 无 处 不 在 的 智能 终端 .互动 频繁 的 社交 网 络 和 超大 容量 的 数字 化 存储 ， 
不 得 不 承认 大 数据 已 经 渗透 到 各 个 行业 领域 ,逐渐 成 为 一 种 生产 要 素 发 挥 着 重要 作用 ,成 为 
未 来 竞争 的 制高点 。 大 数据 所 含 信息 量 较 高 ,虽然 相对 价值 密度 较 低 ,但 是 对 它 里 面 所 蕴藏 
的 潜在 信息 , 随 着 快速 处 理 和 分 析 提 取 技 术 的 发 展 , 可 以 快速 捕捉 到 有 价值 的 信息 以 提供 参 
考 决策 。 然 而 ,大 数据 掀起 新 一 轮 生 产 率 提高 和 消费 者 盈余 浪潮 的 同时 , 随 之 而 来 的 是 信息 
安全 的 挑战 。 


6.1.1 信息 安全 的 发 展 


如 图 6. 1 所 示 ,20 世纪 80 年 代 , 保 证 信息 安全 的 层次 是 物理 安全 层次 ,使 用 的 手段 主 
要 是 机 房管 理 门禁 管理 等 传统 手段 。 在 20 世纪 90 年 代 , 保 证 信息 安全 的 层次 是 网 络 安全 
层次 ,使 用 的 手段 主要 是 防 病毒 和 防火 墙 等 手段 。 在 2000—2010 年 ,保证 信息 安全 的 层次 
是 应 用 安全 层次 ,使 用 的 手段 主要 是 身份 验证 ,入侵 防护 ,流量 控制 `.VPN、 内 网 安全 等 。 在 
2010 年 之 后 ,保证 信息 安全 的 层次 是 数据 安全 层次 ,使 用 的 手段 是 数据 防 漏 、 数 据 防 抵 
赖 等 。 


6.1.2 数据 安全 的 概念 


国际 标准 化 组 织 (ISO) 对 计算 机 系统 安全 的 定义 是 : 为 数据 处 理 系统 建立 和 采用 的 技 
术 与 管理 的 安全 保护 ,保护 计算 机 硬件 、 软 件 和 数据 不 因 偶 然 和 恶意 的 原因 遭 到 破坏 、 更 改 
数据 安全 有 两 方面 的 含义 : 一 是 数据 本 身 的 安全 ,主要 是 指 采用 现代 密码 算法 对 数据 
进行 主动 保护 ,如 数据 保密 、 数 据 完整 性 、 双 向 身份 认证 等 ; 二 是 数据 防护 的 安全 ,主要 是 采 
用 现代 信息 存储 方法 对 数据 进行 主动 防护 ,如 通过 磁盘 阵列 .数据 备份 .异地 容 灾 等 方法 保 
证 数据 的 安全 。 数 据 安全 是 主动 的 包含 措施 ,数据 本 身 的 安全 必须 基于 可 靠 的 加 密 算 法 与 
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内 网 安全 


6.1 信息 安全 发 展 


安全 体系 ,主要 有 对 称 算法 与 公开 密 钥 密码 体系 两 种 。 数 据 安全 的 基本 特点 包括 : 


机 密 性 (Confidentiality) : 机 密 性 是 指 个 人 或 团体 的 信息 不 为 其 他 人 获得 。 在 计算 
机 中 ,许多 软件 如 邮件 软件 、 网 络 浏览 器 等 ,都 有 保密 性 相关 的 设 定 , 用 以 维护 用 户 
信息 的 保密 性 。 

完整 性 (Integrity) : 数据 完整 性 是 数据 安全 的 3 个 基本 要 点 之 一 , 指 在 传输 ,存储 信 
息 或 数据 的 过 程 中 ,确保 信息 或 数据 不 被 未 授权 的 自 改 或 在 自 改 后 能 够 被 迅速 
发 现 。 

可 用 性 (Availability) : 数据 可 用 性 是 以 使 用 者 为 中 心 的 设计 概念 , 易 用 性 设计 的 重 
点 在 于 让 产品 的 设计 能 够 符合 使 用 者 的 习惯 与 需求 。 以 互联 网 网 站 的 设计 为 例 , 希 
望 让 使 用 者 在 浏览 的 过 程 中 不 会 产生 压力 或 感到 挫折 ,并 能 让 使 用 者 在 使 用 网 站 功 
能 时 ,能 用 最 少 的 努力 发 挥 最 大 的 效能 。 


6.1.3 大 数据 的 特征 


大 数据 通常 被 认为 是 一 种 数据 量 很 大 、 数 据 形式 多 样 化 的 非 结 构 化 数据 。 随 着 对 大 数 
据 研 究 的 进一步 深入 ,大 数据 不 仅 指数 据 本 身 的 规模 ,也 包括 数据 采集 工具 ,数据 存储 平台 、 
数据 分 析 系 统 和 数据 衍生 价值 等 要 素 。 其 主要 特点 包括 : 


° 数据 量 大 : 大 数据 时 代 , 各 种 传感器 移动 设备 、 智 能 终端 和 网 络 社会 等 无 时 无 刻 都 
在 产生 数据 ,数量 级 别 已 经 突破 TB. REE PB 乃至 ZB, 统 计数 据 量 呈 千 倍 级 别 
EF; 

类 型 多 样 : 当今 大 数据 不 仅仅 是 数据 量 的 飞速 增长 ,而 且 还 包含 数据 类 型 的 多 样 
化 。 以 往 数据 大 都 以 二 维 结构 呈现 ,但 随 着 互联 网 、 多 媒体 等 技术 的 快速 发 展 和 普 
及 ,视频 .音频 图片. 邮件 .HTML.、RFID.GPS 和 传感器 等 产生 的 非 结构 化 数据 ， 
每 年 都 以 60% 左 右 的 速度 增长 。 

运算 高 效 : 基于 云 计算 的 Hadoop 大 数据 框架 ,利用 集群 的 高 速 运算 和 存储 ,实现 分 
布 式 运行 系统 ,以 流 的 形式 提供 高 传输 率 来 访问 数据 ,适应 了 大 数据 的 应 用 程序 。 
而 且 , 数 据 挖掘 、 语 义 引 擎 、 可 视 化 分 析 等 技术 的 发 展 ,可 从 海量 的 数据 中 深度 解析 ， 
提取 信息 ,是 掌控 数据 增值 的 “加 速 器 ”。 
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。 产 生 价 值 : 价值 是 大 数据 的 终极 目的 。 大 数据 本 身 可 以 说 是 一 个 “ 金 矿产 ”, 可 以 从 
大 数据 的 融合 中 获得 意 想不到 的 有 价值 的 信息 。 特 别 是 激烈 竞争 的 商业 领域 ,数据 
正成 为 企业 的 新 型 资产 ,追求 数据 最 大 价值 化 。 同 时 ,大 数据 价值 也 存在 密度 低 的 
特性 ,需要 对 海量 的 数据 进行 挖掘 分 析 才 能 得 到 真正 有 用 的 信息 ,形成 用 户 价值 。 


6.1.4 大 数据 给 信息 安全 带 来 新 的 挑战 和 机 遇 


CD 大 数据 包含 隐私 信息 ,加 大 泄露 风险 

网 络 空间 中 的 数据 来 源 涵盖 非常 广阔 的 范围 ,大 量 数据 的 聚集 不 可 避免 地 加 大 了 用 户 
隐私 泄露 的 风险 。 一 方面 ,大 量 的 数据 汇集 ,包括 大 量 的 企业 运营 数据 、 客 户 信息 .个 人 的 隐 
私 和 各 种 行为 的 细节 记录 。 这 些 数 据 的 集中 存储 增加 了 数据 泄露 风险 。 另 一 方面 ,一 些 敏 
感 数据 的 所 有 权 和 使 用 权 并 没有 明确 的 界定 ,很 多 基于 大 数据 的 分 析 都 未 考虑 到 其 中 涉及 
的 个 体 的 隐私 问题 。 

(2) 大 数据 存储 带 来 新 的 安全 挑战 

数据 大 集中 的 后 果 是 复杂 多 样 的 数据 存储 在 一 起 ,例如 开发 数据 、 客 户 资料 和 经 营 数据 
存储 在 一 起 ,可 能 会 出 现 违规 地 将 某 些 生产 数据 放 在 经 营 数据 存储 位 置 的 情况 ,造成 企业 安 
全 管理 不 合 规 。 大 数据 的 大 小 影响 到 安全 控制 措施 能 否 正确 运行 。 对 于 海量 数据 ,常规 的 
安全 扫描 手段 需要 耗费 过 多 的 时 间 , 已 经 无 法 满足 安全 需求 。 安 全 防护 手段 的 更 新 升级 速 
度 无 法 跟 上 数据 量 非 线性 增长 的 步伐 ,大 数据 安全 防护 面临 巨大 挑战 。 

(3) 大 数据 越 来 越 成 为 “攻击 ”的 目标 

大 数据 越 来 越 成 为 被 关注 的 目标 。 因 为 一 方面 ,大 数据 不 仅 意味 着 海量 的 数据 ,也 意味 
着 更 复杂 、 更 敏感 的 数据 ,这 些 数据 会 吸引 更 多 的 潜在 攻击 者 ,成 为 更 具 吸 引力 的 目标 。 男 
一 方面 ,数据 的 大 量 聚 集 , 使 得 黑客 一 次 成 功 的 攻击 能 够 获得 更 多 的 数据 ,无 形 中 增加 了 攻 
击 的 “收益 率 ”。 

(4) 大 数据 使 传统 的 防护 检测 难以 有 效 进行 

传统 的 检测 是 基于 单个 时 间 点 进行 的 基于 威胁 特征 的 实时 匹配 检测 ,而 高 级 可 持续 攻 
击 (APT) 是 一 个 实施 过 程 ,并 不 具有 能 够 被 实时 检测 出 来 的 明显 特征 ,无 法 被 实时 检测 。 
同时 ,APT 攻击 代码 隐藏 在 大 量 数据 中 ,很 难 被 发 现 。 此 外 ,大 数据 的 价值 低 密 度 性 ,让 安 
全 分 析 工 具 很 难 聚 焦 在 价值 点 上 ,黑客 可 以 将 攻击 隐藏 在 大 数据 中 ,给 安全 服务 提供 商 的 分 
析 制 造 很 大 困难 。 

C5) 大 数据 技术 的 价值 和 风险 是 并 存 的 

在 企业 使 用 大 数据 技术 获取 商业 价值 的 同时 ,黑客 也 在 利用 这 些 大 数据 技术 向 企业 发 
起 攻击 。 黑 客 最 大 限度 地 收集 更 多 有 用 信息 ,大 数据 为 黑客 发 起 攻击 提供 了 更 多 机 会 ,大 数 
据 分 析 让 黑客 的 攻击 更 精准 。 

(6) 大 数据 技术 为 信息 安全 发 展 提供 了 新 机 遇 

大 数据 正在 为 安全 分 析 提 供 新 的 可 能 性 ,对 于 海量 数据 的 分 析 有 助 于 信息 安全 服务 提 
供 商 更 好 地 刻画 出 网 络 异常 行为 ,从 而 找 出 数据 中 的 风险 点 。 对 实时 安全 和 商务 数据 结合 
在 一 起 的 数据 进行 预防 性 的 分 析 , 以 便 识别 钓鱼 攻击 ,防止 诈骗 和 阻止 黑客 入 侵 。 网 络 攻 击 
行为 总 会 留 下 蛛丝马迹 ,这 些 痕迹 都 以 数据 的 形势 隐藏 在 大 数据 中 ,利用 大 数据 技术 整合 计 
算 和 处 理 资源 有 助 于 更 有 针对 性 的 应 对 信息 安全 威胁 ,使 得 网 络 攻击 行为 无 所 通 形 ,有 助 于 
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找到 发 起 攻击 的 源头 。 


6.2 大 数据 面临 的 安全 威胁 


相对 于 传统 数据 的 安全 保护 ,大 数据 的 安全 保护 更 加 复杂 。 一 方面 ,大 数据 中 包括 大 量 
的 企业 运营 数据 、 客 户 信息 、 个 人 的 隐私 和 各 种 行为 的 细节 记录 ,这 些 数据 的 存储 增加 了 数 
据 泄露 的 风险 ,使 大 数据 安全 面临 更 多 的 威胁 。 另 一 方面 ,大 数据 给 数据 完整 性 、 可 用 性 和 
保密 性 带 来 了 更 多 挑战 ,传统 的 安全 工具 已 不 再 像 以 前 那么 有 效 。 

大 数据 的 特征 为 黑客 发 起 攻击 提供 了 更 多 机 会 ,利用 大 数据 ,黑客 可 以 扩大 攻击 的 效 
果 。 如 黑客 利用 大 数据 发 起 网 络 攻 击 , 这 个 数量 级 是 传统 单 点 攻击 所 不 具备 的 。 其 次 ,黑客 
可 以 通过 控制 关键 节点 放大 攻击 效果 。 此 外 ,大 数据 的 低 密度 性 使 得 现 有 的 安全 分 析 工 具 
很 难 聚 焦 在 关键 点 上 ,黑客 可 以 将 攻击 隐藏 在 大 数据 中 ,给 安全 厂商 的 分 析 制 造 困 难 。 
此 ,大 数据 的 安全 保护 面临 着 更 多 威胁 。 

(1) 基本 威胁 

* 信息 泄露 : 信息 泄露 主要 指 大 数据 中 的 部 分 或 全 部 信息 被 透露 给 未 被 授权 的 用 户 、 
软件 或 实体 ,尤其 是 大 数据 中 一 些 敏感 信息 或 关键 信息 的 泄露 。 这 种 威胁 通常 来 自 
窃听 、 搭 线 或 其 他 更 加 复杂 的 信息 探测 攻击 。 
完整 性 破坏 : 由 于 非 授 权 的 增加 、 删 除 和 修改 等 操作 ,大 数据 中 的 部 分 信息 丢失 , 完 
整 性 遭 到 破坏 。 
拒绝 服务 : 用 户 对 大 数据 中 一 些 资源 的 合理 访问 被 无 条 件 地 拒绝 。 主 要 包括 两 种 
情况 : 攻击 者 制造 一 系列 非法 的 访问 ,致使 系统 产生 过 量 负 荷 ,从 而 导致 系统 资 
源 在 合法 用 户 看 来 是 无 法 使 用 的 ; @@ 大 数据 处 理 系统 在 物理 上 或 迎 辑 上 但 到 破坏 ， 
致使 用 户 的 合理 请 求 服务 被 拒绝 。 
非法 使 用 : 非法 使 用 主要 指 大 数据 中 的 一 些 资 源 被 非 授 权 用 户 使 用 ,或 者 是 大 数据 
中 的 某 些 资源 被 用 户 以 非 授权 的 方式 使 用 。 

(2) 恶意 威胁 

在 大 数据 的 安全 防护 中 ,恶意 威胁 应 该 引起 高 度 重视 ,因为 它 有 可 能 导致 其 他 威胁 的 相 
继 发 生 。 恶 意 威胁 主要 分 为 渗入 威胁 和 植 人 威胁 两 类 。 

主要 的 渗入 威胁 分 为 3 类 : 

。 假冒 : 系统 中 某 个 实体 假装 成 另外 一 个 不 同 的 实体 ,以 方便 获取 系统 的 权限 和 特 
权 。 该 攻击 方法 较为 常见 ,黑客 多 采用 这 种 方式 实施 攻击 。 
旁 路 控制 : 为 了 获取 非 授权 的 权利 和 特权 ,攻击 者 会 寻找 系统 自身 的 缺陷 和 漏洞 ， 
绕 过 系统 的 安全 防线 对 大 数据 实施 攻击 。 
授权 侵犯 : 一 个 授权 的 用 户 将 其 权限 用 于 其 他 非 授权 的 目的 ,这 种 攻击 又 称 为 “内 
部 攻击 ”。 
主要 的 植 入 威胁 可 分 为 两 类 : 
。 特洛伊 木马 : 主要 指 软 件 中 含有 用 户 觉察 不 出 的 程序 段 , 当 该 程序 段 被 执行 时 ,用 

户 数据 的 安全 性 会 遭 到 破坏 。 

* 陷阱 门 : 主要 指 一 些 用 户 或 程序 在 大 数据 管理 系统 的 某 个 或 多 个 部 件 中 设置 “机 
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关 ”, 当 大 数据 系统 接收 到 特定 的 输入 信息 时 ,允许 违反 正常 的 安全 策略 。 例 如 , 当 
一 个 用 户 登 录 大 数据 管理 的 子 系 统 时 , 若 系 统 设置 有 陷阱 门 , 攻 击 者 输入 一 个 特定 
的 用 户 身份 时 , 便 可 以 绕 过 正常 的 口令 检测 或 身份 认证 过 程 而 直接 侵入 系统 内 部 。 
(3) 潜在 威胁 
在 大 数据 的 安全 防护 过 程 中 ,潜在 威胁 有 可 能 导致 一 些 更 基本 威胁 的 发 生 。 常 见 的 潜 
在 威胁 分 为 4 种 类 型 : 
* fjr (Eavesdropping) : 
* 流量 分 析 (Traffic Analysis); 
。 操作 人 员 的 不 慎 所 导致 的 信息 泄露 ; 
。 媒体 废弃 物 所 导致 的 信息 泄露 。 
图 6.2 给 出 了 大 数据 面临 的 一 些 典 型 威胁 及 其 相互 关系 。 图 中 的 路 径 可 以 交错 ,如 假 
冒 攻击 可 以 成 为 所 有 基本 威胁 的 基础 ,同时 假冒 攻击 本 身 也 存在 信息 泄露 的 潜在 威胁 。 
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假冒 特洛伊 木马 


e ET H] | 
流量 分 析 授权 侵犯 mr Em 
PY 物理 侵入 — 

ük (EMS | i 
Ane 完整 性 侵犯 


消息 重 发 


图 6.2 典型 的 威胁 及 其 相互 关系 


6.3 大 数据 安全 的 应 对 策略 


当然 ,大 数据 也 为 数据 安全 的 发 展 提供 了 新 机 遇 , 为 安全 分 析 提 供 新 的 可 能 性 ,对 海量 
数据 的 分 析 有 助 于 更 好 地 跟踪 网 络 异常 行为 ,对 实时 安全 和 应 用 数据 结合 在 一 起 的 数据 进 
行 预防 性 分 析 , 可 防止 诈骗 和 黑客 人 侵 。 网 络 攻击 行为 总 会 留 下 蛛丝马迹 ,这 些 痕迹 都 以 数 
据 的 形式 隐藏 在 大 数据 中 ,从 大 数据 的 存储 应 用 和 管理 等 方面 层 层 把 关 , 可 以 有 针对 性 地 
应 对 数据 安全 威胁 。 


6.3.1 大 数据 存储 安全 策略 


基于 云 计 算 架 构 的 大 数据 ,数据 的 存储 和 操作 都 是 以 服务 的 形式 提供 。 目 前 ,大 数据 的 
安全 存储 采用 虚拟 化 海量 存储 技术 来 存储 数据 资源 ,涉及 数据 传输 、 隔 离 恢 复 等 的 问题 。 
通过 以 下 几 种 方法 解决 大 数据 的 安全 存储 : 
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CD 数据 加 密 。 在 大 数据 安全 服务 的 设计 中 ,大 数据 可 以 按照 数据 安全 存储 的 需求 , 存 
储 在 数据 集 的 任何 存储 空间 ,通过 SSL( 安 全 套 接 层 ) 加 密 , 实 现 数据 集 的 节点 和 应 用 程序 之 
间 移 动 保护 大 数据 。 在 大 数据 的 传输 服务 过 程 中 ,加 密 为 数据 流 的 上 传 与 下 载 提供 有 效 的 
保护 。 应 用 隐私 保护 和 外 包 数 据 计 算 ,屏蔽 网 络 攻击 。 目 前 ,PGP 和 TrueCrypt 等 程序 都 
提供 了 强大 的 加 密 功能 。 

(2) 分 离 密 钥 和 加 密 数 据 。 使 用 加 密 把 数据 使 用 与 数据 保管 分 离 ,把 密 钥 与 要 保护 的 
数据 隔离 开 。 同 时 ,定义 产生 、 存 储备 份 ,恢复 等 密 钥 管理 生命 周期 。 

G) 使 用 过 滤器 。 通 过 过 滤器 的 监控 ,一 旦 发 现 数据 离开 了 用 户 的 网 络 ,就 自动 阻止 数 
据 的 再 次 传输 。 

CD 数据 备份 。 通 过 系统 容 灾 、 敏 感 信息 集中 管控 和 数据 管理 等 产品 ,实现 端 对 端的 数 
据 保护 ,确保 大 数据 损坏 情况 下 有 备 无 患 和 安全 管控 。 


6.3.2 大 数据 应 用 安全 策略 


随 着 大 数据 应 用 所 需 技术 和 工具 的 快速 发 展 ,大 数据 应 用 安全 策略 主要 从 以 下 几 方 面 
TT. 

CD 防止 APT 攻击 。 借 助 大 数据 处 理 技术 ,针对 APT 安全 攻击 隐蔽 能 力 强 、 长 期 潜 
伏 、 攻 击 路 径 和 渠道 不 确定 等 特征 ,设计 具备 实时 检测 能 力 与 事后 回溯 能 力 的 全 流量 审计 方 
案 ,提醒 隐藏 有 病毒 的 应 用 程序 。 

(2) 用 户 访问 控制 。 大 数据 的 跨 平台 传输 应 用 在 一 定 程度 上 会 带 来 内 在 风险 ,可 以 根 
据 大 数据 的 密集 程度 和 用 户 需 求 的 不 同 , 将 大 数据 和 用 户 设 定 不 同 的 权限 等 级 ,并 严格 控制 
访问 权限 。 而 且 , 通 过 单 点 登录 的 统一 身份 认证 与 权限 控制 技术 ,对 用 户 访问 进行 严格 的 控 
制 ,有 效 地 保证 大 数据 应 用 安全 。 

(3) 整合 工具 和 流程 。 通 过 整合 工具 和 流程 ,确保 大 数据 应 用 安全 处 于 大 数据 系统 的 
顶端 。 整 合 点 平行 于 现 有 连接 的 同时 ,减少 通过 连接 企业 或 业务 线 的 SIEM 工具 输出 到 大 
数据 安全 仓库 ,以 防止 预 处 理 的 数据 暴露 以 及 加 工 后 的 数据 集 溢 出 。 通 过 设计 标准 化 的 数 
据 格式 简化 整合 过 程 ,也 可 以 改善 分 析 算 法 的 持续 验证 。 

CD 数据 实时 分 析 引 擎 。 数 据 实时 分 析 引 擎 融合 云 计算 、 机 器 学 习 ,\ 语 义 分 析 、 统 计 学 
等 多 个 领域 ,从 大 数据 中 第 一 时 间 挖 掘 出 黑客 攻击 ,非法 操作 、 潜 在 威胁 等 各 类 安全 事件 ,发 
出 警告 响应 。 


6.3.3 大 数据 管理 安全 策略 


云 计 算 专 家 说 :“ 数 据 安全 三 分 靠 技术 ,七 分 靠 管 理 ”。 通 过 技术 来 保护 大 数据 的 安全 
必然 重要 ,但 管理 也 很 关键 。 大 数据 的 管理 安全 策略 主要 包括 : 

CD 规范 建设 。 大 数据 建设 是 有 序 的 、 动 态 的 .可 持续 发 展 的 系统 工程 ,建设 规范 的 运 
行 机 制 \ 标 准 和 共享 平台 至 关 重 要 。 规 范 化 建设 可 以 促进 大 数据 管理 过 程 的 正规 有 序 ,实现 
各 级 各 类 信息 系统 的 网 络 互 连 、 数 据 集成 、 资 源 共 享 ,在 统一 的 安全 规范 框架 下 运行 。 

(2) 建立 以 数据 为 中 心 的 安全 系统 。 基 于 云 计算 的 大 数据 存储 在 云 共享 环境 中 ,为 了 
大 数据 的 所 有 者 可 以 对 大 数据 使 用 进行 控制 ,可 以 通过 建设 一 个 基于 异 构 数 据 为 中 心 的 安 
全 方法 ,从 系统 管理 上 保证 大 数据 的 安全 。 
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(3) 融合 创新 。 大 数据 是 在 云 计算 的 基础 上 提出 的 新 概念 ,大 数据 时 代 应 以 智慧 创新 
理念 融合 大 数据 与 云 计算 ,以 智能 管道 与 聚合 平台 为 基础 ,提升 数据 流量 规模 、 层 次 及 内 涵 ， 
在 大 数据 流 中 提升 知识 价值 洞察 力 。 积 极 创造 大 数据 公司 技术 融合 平台 ,寻找 数据 洪流 大 
潮 中 新 的 立足 点 ,特别 是 在 数据 挖掘 人 工 智能 、 机 器 学 习 等 新 技术 的 创新 应 用 中 融合 创新 。 


6.4 大 数据 的 治理 


数据 治理 涵盖 了 整个 企业 的 信息 化 立场 和 建设 ,包括 所 有 核心 业务 系统 .运营 数据 存储 
或 数据 仓库 .ECIF、 风 险 控 制 以 及 很 多 其 他 的 系统 ,需要 技术 和 * 软 内 容 " 平 台 提供 支撑 , 包 
括 主 数据 管理 平台 、 数 据 质量 管理 平台 数据 服务 平台 以 及 元 数据 管理 和 数据 标准 管理 ,最 
终 实 现 所 有 数据 的 全 方位 监管 ,实现 端 到 端的 数据 梳理 和 管理 ,确保 数据 的 有 效 性 、 可 访问 
性 、 高 质量 ,一 致 性 、 可 审计 和 安全 性 ,这 是 数据 治理 的 目标 所 在 。 


6.4.1 大 数据 环境 下 的 安全 技术 体系 框架 


在 大 数据 环境 下 的 安全 技术 体系 框架 比较 复杂 ,有 各 种 终端 .防护 方法 等 。 图 6. 3 展示 
了 大 数据 环境 下 的 安全 技术 体系 框架 。 


手机 、PC 端 等 终端 接 入 区 应 用 防护 安全 


ap: Access 


数据 管道 虚拟 化 环境 安全 


menet | [ 管理 运 维 区 | | iex BYOD 一 移动 

EAK (p) | | 应 用 防护 区 BARA 
桌面 资 | f m " 安全 监测 与 大 数 
yu | | 计算 池 | | 存储 池 | | 业务 数据 区 EBREA 


图 6.3 大 数据 环境 下 的 安全 技术 体系 框架 


6.4.2 大 数据 治理 定义 


数据 治理 是 指 在 企业 数据 生命 的 整个 周期 (从 数据 采集 到 数据 使 用 直至 数据 存档 ) 制 定 
由 业务 推动 的 数据 政策 ,数据 所 有 权 、 数 据 监控 ,数据 标 准 以 及 指导 方针 。 数 据 治理 的 重点 
在 于 ,要 将 数据 明确 作为 企业 的 资产 看 待 。 数 据 治理 的 六 大 支柱 如 图 6.4 所 示 ,对 于 任何 企 
业 数 据 治理 计划 而 言 ,变更 管理 都 是 必 不 可 少 的 核心 部 分 。 


6.4.3 数据 治理 的 作用 
数据 治理 在 架 起 IT 技术 与 业务 之 间 的 桥梁 方面 发 挥 作用 ,如 图 6. 5 所 示 。 
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政策 、 标 准 、 流 


程 及 指导 方案 


图 6.4 数据 治理 六 大 支柱 


muu 业务 目标 及 价值 


数据 识别 | | 数据 采集 | | 数据 转换 E 数据 存储 | | 数据 传输 


图 6.5 数据 治理 在 业务 目标 与 IT 目标 之 间架 起 桥梁 


6.5 大 数据 加 密 技术 


由 于 大 数据 的 加 密 处 理 对 存储 资源 .计算 资源 等 都 提出 了 较 高 的 性 能 要 求 ,传统 加 密 算 
法 和 处 理工 具 已 不 再 像 以 前 那么 高 效 。 目 前 ,针对 大 数据 加 密 的 处 理 , 常 见方 式 主要 有 
两 种 : 

CD 数据 采样 。 为 了 使 数据 加 密 处 理 更 有 针对 性 ,通过 数据 采样 的 方法 ,搜集 关键 信息 
的 数据 域 , 客 观 上 会 将 数据 规模 变 小 ,以 加 快 处 理 速度 。 然 而 在 某 些 领域 ,应 用 采样 技术 仅 
对 大 数据 中 的 部 分 信息 进行 加 密 ,很 难 防范 攻击 者 从 其 他 信息 中 挖掘 出 关键 信息 和 敏感 信 
息 的 可 能 性 。 

(2) 分 而 治之 。 利 用 分 布 式 计算 技术 ,将 大 数据 分 别 在 不 同 的 计算 机 上 进行 加 密 处 理 ， 
从 而 有 效 提高 了 大 数据 加 解密 的 速度 。 常 见 的 是 使 用 MapReduce 模式 对 海量 数据 进行 并 
行 处 理 。 

以 上 两 种 加 密 技 术 的 通用 加 密 模 型 是 一 致 的 ,如 图 6.6 所 示 。 

大 数据 加 密 系统 可 表示 为 一 个 五 元 组 : 二 P,C,K,E.D 二 ,其 中 

。 了 表示 交互 数据 集合 。 

* C 表示 加 密 数据 集合 。 
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图 6.6 大 数据 加 密 通用 模型 


。 K 表示 密 钥 集合 。 
。 下 表示 加 密 函 数 : 利用 设计 的 加 密 函 数 下 和 密 钥 k(kEK) 对 交互 数据 p(pEP) 进 行 
加 密 , 得 加 密 数据 cCcEC) , 即 丰 :PXK-~C, 简 记 为 E (P)=C, 
* D 表示 解 密 函 数 : 利用 设计 的 解密 函数 D 和 密 钥 kKGkEK) 对 加 密 数据 c 进行 解密 ， 
得 解密 数据 p, E D:CXK->~P, 简 记 为 D (C)=P, 
在 大 数据 加 密 方面 ,国内 外 研究 已 取得 了 初步 成 果 , 主 要 包括 4 个 方面 : 
(1) 基于 现代 密码 体制 的 大 数据 加 密 技术 
° 加 密 原理 : 1949 年 ,Shannon 发 表 了 “保密 系统 的 通信 理论 "一文, 对 信息 保密 问题 
做 了 全 新 的 诠释 ,从 此 逐渐 形成 了 现代 密码 学 理论 。 现 代 密 码 体制 可 分 为 对 称 密 码 
体制 和 非 对 称 密码 体制 。 对 称 密码 体制 中 ,通信 双方 共享 一 个 加 密 密 钥 和 一 个 解密 
密 钥 ,加 、 解 密 密 钥 相同 或 彼此 容易 相互 确定 ,其 代表 为 数据 加 密 标准 (Data 
Encryption Standard, DES) 和 高 级 加 密 标 准 (Advanced Encryption Standard, 
AES)。 非 对 称 密码 体制 中 ,发 送 方 拥有 一 个 公 钥 (可 公开 ) 和 一 个 私 钥 ( 必 须 保 密 )， 
其 代表 为 RSA (Rivest, Shamir, Adleman) 和 椭圆 曲线 密码 体制 (Elliptic Curve 
Cryptosystem,ECC)。 对 椭圆 有 曲线 离散 对 数 密码 体制 (ECDLC) 安 全 性 的 研究 已 进 
行 了 十 余年 ,尚未 发 现 明 显 的 弱点 。 在 实际 应 用 中 ,对 称 密码 体制 主要 用 于 加 密 文 
本 信息 。 非 对 称 密码 体制 比 对 称 密码 体制 平均 慢 约 1000 倍 , 它 经 常用 来 加 密 短 信 
息 , 如 密 钥 等 。 基 于 现代 密码 体制 的 大 数据 加 密 原理 是 将 大 数据 视 为 二 进 制 流 , 采 
用 现代 密码 体制 进行 加 解密 。 
技术 特征 : 理论 上 ,大 数据 完全 可 用 现代 密码 体制 进行 加 密 ,但 是 大 数据 是 特殊 的 
数据 (数据 量 大 、 高 维 数 和 元 余 度 高 等 ) ,而 现代 密码 体制 多 是 针对 文本 数据 进行 加 
密 设 计 的 ,并 没有 结合 大 数据 加 密 的 安全 需求 。 且 往往 结构 复杂 、 计 算 量 大 ,因此 很 
难 满足 实际 应 用 需求 。 单 纯 依 靠 增加 加 解密 设备 ,存储 设备 和 带宽 并 不 能 从 根本 上 
解决 问题 ,必须 寻求 新 的 技术 解决 途径 。 
(2) 基于 生物 工程 的 大 数据 加 密 技术 
。 加 密 原理 : 生物 工程 中 DNA 计算 是 近年 来 出 现 的 一 种 新 型 自然 计算 方法 , 因 其 高 
度 的 并 行 性 和 海量 的 存储 能 力 , 引 起 了 广泛 关注 。1994 年 ,Adleman 首次 提出 了 
DNA 计算 ,开创 了 信息 处 理 的 新 阶段 。 目 前 ,DNA 加 密 已 成 为 国际 密码 学 研究 的 
前 沿 领 域 。 基 于 DNA 计算 的 大 数据 加 密 算法 是 一 种 新 颖 的 数据 加 密 手段 ,以 DNA 
为 信息 载体 ,以 现代 生物 技术 为 实现 工具 ,挖掘 DNA 固有 的 高 存储 密度 和 高 并 行 
性 等 优点 ,实现 加 密 认 证 及 签名 等 密码 学 功能 .具有 较 好 的 研究 前 景 。 
张强 教授 已 建立 了 基于 图 像 的 DNA 编码 和 运算 理论 ,提出 了 多 种 基于 DNA 的 图 像 加 
密 算法 。 同 时 ,还 定义 了 DNA 编码 的 加 法 和 减法 运算 。 
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。 技术 特征 : 张强 教授 设计 的 基于 DNA 计算 的 加 密 算法 ,是 建立 在 A.GC 和 T4 种 
编码 与 图 像 像素 之 间 的 一 种 转换 关系 上 的 ,并 非 通过 真正 的 DNA 生物 技术 实现 ,此 
类 编码 加 法 和 减法 运算 规则 有 限 ,自身 安全 性 不 高 ,需要 结合 其 他 加 密 手 段 来 进 一 
步 提 高 安全 性 。 

目前 ,基于 DNA 计算 技术 的 大 数据 加 密 方案 还 处 于 研究 初期 ,但 DNA 分 子 固 有 的 超 
大 规模 并 行 性 、 超 低 的 能 量 消耗 和 超 高 的 存储 密度 ,使 得 基于 DNA 计算 技术 的 大 数据 加 密 
方案 具有 传统 密码 算法 所 不 具有 的 独特 优势 。 

(3) 基于 属性 基 的 大 数据 加 密 技术 

* WME: Shamir 于 1979 年 首次 提出 身份 基 加 密 的 概念 ,随后 众多 的 身份 基 加 密 

的 扩展 概念 被 提出 ,比如 层次 化 身份 基 加 密 、 身 份 基 广 播 加 密 、 空 间 加 密 等 。 属 性 基 
加 密 也 是 身份 基 加 密 的 一 种 扩展 。 目 前 正在 使 用 两 种 属性 基 加 密 方式 分 别 为 密 钥 
政策 基 加 密 和 密 文政 策 基 加 密 。 在 密 文政 策 基 属性 基 加 密 处 理 中 ,明文 消息 在 一 个 
可 表示 成 由 “与 "“ 或 "“ 非 ” 门 连接 的 逻辑 表达 式 的 谓词 下 进行 加 密 。 每 个 用 户 从 
属性 机 构 处 获得 对 应 某 个 属性 集合 的 密 钥 。 当 且 仅 当 该 属性 集合 满足 上 述 谓词 时 ， 
解密 才能 成 功 。 密 钥 政 策 基 属 性 基 加 密 的 情况 则 与 此 相反 : 在 该 加 密 体制 中 , 密 文 
和 属性 集合 相对 应 ,而 用 户 密 钥 则 对 应 某 个 谓词 。 在 实际 应 用 中 ,可 根据 用 户 属性 
及 对 数据 的 保密 级 别 , 对 大 数据 进行 不 同 层次 的 加 密 处 理 , 此 方法 在 敏感 大 数据 的 
机 密 性 保护 中 具有 较 好 的 应 用 。 

。 加 密 特征 : 基于 属性 基 的 加 密 机 制 具有 以 下 4 个 常见 特点 : 

D 资源 提供 方 仅 根据 属性 信息 加 密 消息 ,不 需要 关注 群体 中 的 成 员 数 量 和 身份 特性 ， 
降低 了 数据 加 解密 开销 ,同时 保护 了 用 户 的 隐私 。 

@ 只 有 符合 密 文 属性 要 求 的 成 员 才 能 解密 消息 ,从 而 保证 了 数据 的 机 密 性 。 

© 基于 属性 基 的 加 密 机 制 中 ,用 户 密 钥 由 随机 的 多 项 式 或 者 随机 数 产 生 , 保 证 了 密 铀 
的 新 鲜 性 ,各 个 不 同 的 用 户 无 法 将 其 密 钥 进行 联合 ,从 而 有 效 阻止 了 串 谋 攻 击 。 

@ 支持 基于 属性 的 灵活 访问 控制 策略 ,可 以 灵活 地 实现 属性 的 与 或 . 非 及 门限 的 操 
作 , 处 理 起 来 非常 高 效 。 

基于 属性 基 的 大 数据 加 密 机 制 的 高 效 性 、 抗 串 谋 性 和 策略 表示 的 灵活 性 ,使 其 在 大 数据 
的 细 粒 度 访问 控制 ,信息 的 定向 广播 ,组 密 钥 管理 及 隐私 保护 等 领域 具有 良好 的 应 用 前 景 。 

(4) 基于 并 行 计算 的 大 数据 加 密 技术 

* 加 密 原理 : 近 20 年 来 ,单机 尤其 是 CPU、 内 存 等 硬件 的 性 能 有 了 和 较 大 提高 。 然 而 ， 

硬件 技术 的 发 展 在 理论 上 是 非常 有 限 的 。 如 果 说 硬件 的 发 展 在 纵向 上 提高 了 系统 
加 解密 的 性 能 , 那 并 行 技术 的 发 展 则 是 从 横向 上 拓展 了 数据 加 解密 处 理 的 方式 。 并 
行 处 理 采用 的 策略 是 “分 而 治之 ”, 从 性 能 延伸 的 意义 上 来 看 ,该 方法 在 理论 上 对 于 
系统 性 能 的 延伸 是 没有 边界 的 。 

有 学 者 将 IBE 与 CPK 有 机 结合 ,能 够 为 超大 规模 的 云 计 算 用 户 提 供 安全 支持 ,具有 大 
规模 ,高 效率 、 低 带宽 、 易 使 用 的 特点 。 宋 怀 明 等 提出 了 一 种 “大 规模 数据 密集 型 系统 中 的 去 
重 查询 优化 ”算法 ,针对 shared-nothing 结构 下 大 规模 数据 密集 型 系统 的 查询 ,提出 了 一 种 
有 效 的 数据 分 布 策 略 和 并 行 处 理 方法 ,分 别 对 相关 属性 和 无 关 属 性 去 元 进行 优化 ,为 大 数据 
加 密 过 程 中 的 去 重 查 询 提供 了 有 效 算法 。 韩 希 先 等 提出 了 一 种 新 的 大 数据 上 的 top-k 查询 
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算法 TKEP ,该 算法 在 查询 的 增长 阶段 就 执行 剪 切 ,从 而 大 大 减少 增长 阶段 需要 维护 的 候选 
元 组 ,为 大 数据 加 密 后 的 快速 搜索 提供 了 重要 方法 。 

在 实际 应 用 中 ,比较 主流 的 两 种 分 布 式 数据 处 理 技术 是 MapReduce 技术 和 并 行 数 据 库 
技术 。 大 数据 可 以 通过 MapReduce 这 一 并 行 处 理 技术 来 提高 数据 的 处 理 速度 。 
MapReduce 的 设计 初衷 是 通过 大 量 廉价 服务 器 实现 大 数据 并 行 处 理 , 对 数据 一 致 性 要 求 不 
高 ,其 突出 优势 是 具有 扩展 性 和 可 用 性 ,特别 适用 于 海量 的 结构 化 、 半 结构 化 及 非 结构 化 数 
据 的 混合 处 理 。 

。 技 术 特 征 : 空间 或 时 间 上 的 并 行 处 理 能 够 大 大 提高 任务 的 处 理 效率 。 并 行 计算 通 

常 分 为 “任务 并 行 处 理 ”" 和 "数据 并 行 处 理 ” 两 方面 。 任 务 并 行 处 理会 使 任务 的 协调 
和 管理 变 得 非常 复杂 ,不 利于 操作 。 数 据 并 行 处 理 则 是 将 一 个 大 任务 分 解 为 多 个 子 
任务 , 比 任务 并 行 处 理 容易 。 云 计算 是 基于 互联 网 的 、 典 型 的 分 布 式 计算 方式 ,使 超 
级 计算 能 力 通过 互联 网 自由 流通 成 为 可 能 , 它 将 巨大 的 分 层 资源 池 连 接 在 一 起 ,以 
提供 各 种 IT 服务 。 

大 数据 主要 特点 是 存储 密度 大 ,计算 强度 大 ,需要 大 规模 的 并 行 存储 和 处 理 的 能 力 。 基 
于 并 行 计算 的 大 数据 加 密 技 术 目 前 还 是 在 起 始 阶段 ,但 其 超 强 的 计算 能 力 和 快速 处 理 能 力 
在 大 数据 加 密 处 理 时 已 表现 出 优越 的 性 能 ,具有 传统 加 密 算 法 无 法 比拟 的 优势 。 

总 之 ,大 数据 的 加 密 技术 总 体 沿 着 如 何 进一步 提高 安全 性 、 加 密 速度 、 节 约 耗 能 ,以 及 易 
扩展 性 、 时 效 性 和 交互 性 的 方向 发 展 ,未 来 可 能 的 几 个 研究 方向 为 : 

(1) 大 数据 加 密 技术 与 分 布 式 计算 结合 。 在 云 计算 等 分 布 式 环境 下 ,如 何 处 理 大 数据 
流 的 实时 加 解密 ,设计 出 适用 于 分 布 式 环境 下 实时 的 加 密 算法 有 待 研究 。 

(2) 大 数据 加 密 技 术 与 搜索 技术 结合 。 大 数据 加 密 状态 下 如 何 解决 密 文 信息 的 快速 检 
索 , 有 待 研究 与 开发 。 

(3) 大 数据 加 密 技术 与 数据 挖掘 技术 结合 。 大 数据 通常 具有 数据 量 大 、 高 维和 元 余 度 
高 的 特点 ,如 何在 保证 用 户 的 基本 需求 下 ,在 大 数据 密 文中 挖掘 出 有 效 信息 还 有 待 研究 。 

(4) 大 数据 加 密 自 恢复 能 力 验证 。 在 大 数据 密 文 的 传输 过 程 中 ,存在 被 第 三 方 自 改 或 
网 络 丢 包 的 可 能 性 ,在 部 分 数据 丢失 的 情况 下 ,确保 加 密 数据 的 自 恢复 能 力 , 对 大 数据 的 完 
整 性 和 可 信和 性 验证 也 十 分 必要 。 

(5) 大 数据 加 密 算法 与 数据 消 完 技 术 的 结合 。 大 数据 具有 类 型 数据 多 样 化 和 宛 余 度 高 
的 特征 ,研究 发 现 , 应 用 系统 保存 的 大 数据 中 宛 余 度 高 达 60% ,而 且 随 着 时 间 的 推移 宛 余 度 
不 断 增 大 ,因此 大 数据 的 加 密 算 法 中 数据 消 完 技 术 的 研究 具有 重要 意义 和 价值 。 
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Hadoop 技 术 


7.1 Hadoop 简介 


7.1.1 简介 


Apache Hadoop 是 一 款 支 持 数据 密集 型 分 布 式 应 用 并 以 Apache 2. 0 许可 协议 发 布 的 
开源 软件 框架 。 它 支持 运行 在 商品 硬件 构建 的 大 型 集群 上 的 应 用 程序 。Hadoop 是 根据 
Google 公司 发 表 的 MapReduce 和 Google 档案 系统 的 论文 实现 而 成 。 

Hadoop 框架 透明 地 为 应 用 提供 可 靠 性 和 数据 移动 ,实现 了 名 为 MapReduce 的 编程 范 
式 : 应 用 程序 被 分 割 成 许多 小 部 分 ,而 每 个 部 分 都 能 在 集群 中 的 任意 节点 上 执行 或 重新 执 
行 。 此 外 , Hadoop 还 提供 了 分 布 式 文件 系统 ,用 以 存储 所 有 计算 节点 的 数据 ,这 为 整个 集 
群 带 来 了 非常 高 的 带宽 。MapReduce 和 分 布 式 文件 系统 的 设计 ,使 得 整个 框架 能 够 自动 处 
理 节点 故障 。Hadoop 使 应 用 程序 与 成 千 上 万 的 独立 计算 的 计算 机 可 以 处 理 PB 级 的 数据 。 
现在 普遍 认为 整个 Apache Hadoop“ 平 台 ” 包 括 Hadoop 内 核 `.MapReduce、Hadoop 分 布 式 
文件 系统 (HDFS) 以 及 一 些 相关 项 目 ,有 Apache Hive 和 Apache HBase 等 。 


7.1.2 Hadoop 用 途 


Hadoop 的 主要 用 途 有 如 下 几 方 面 : 
° 日志 分 析 ; 

° 广告 优化 ; 

。 对 大 数据 进行 处 理 ; 

° 进行 科学 研究 ; 

。 搜索 引擎 应 用 。 
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7.2 Hadoop 安装 与 简单 配置 


由 于 Hadoop 需要 运行 在 Linux 中 ,如 果 计 算 机 中 没有 Linux 系统 ,要 下 载 Liunx 系 
统 , 并 安装 最 新 版 的 JDK ,再 进行 Hadoop 安装 和 配置 ,本 节 将 简要 地 讲解 Hadoop 单机 模 
式 的 配置 ,如 果 对 其 他 配置 和 使 用 方式 有 兴趣 ,可 以 到 互联 网 上 寻找 资料 。 


7.2.1 Linux 安装 


这 里 讲 到 的 Linux 系统 采用 Cent OS(Community Enterprise Operating System) ,Cent 
OS 为 免费 的 Linux 操作 系统 , 它 是 Linux 发 行 版 之 一 ,来 自 于 Red Hat Enterprise Linux 
依照 开放 源 代 码 规定 释 出 的 源 代码 所 编译 而 成 。 

如 果 不 想 在 计算 机 中 进行 实体 Linux 操作 系统 安装 ,可 以 采用 虚拟 机 安装 模式 。 

在 首页 选择 右 侧 的 Downloads, EAP 7. 1 所 示 页 面 , 选 择 当 前 需要 安装 系统 的 计算 机 
目前 的 操作 系统 所 对 应 的 版 本 进行 下 载 。 


S< 


Download VirtualBox 


Here, you will find links to VirtualBox binarles and its source code. 


About 
Screenshots VirtualBox binaries 
Downloads By downloading, you agree to the terms and conditions of the respective license. 
Documentation + VirtualBox platform packages. The binaries are released under the terms of the GPL version 2. 
End-user docs © VirtualBox 5.0 for Windows hosts =x86/amd64 
° VirtualBox 5.0 for OS X hosts “amd64 
Terima docs » VirtualBox 5.0 for Linux hosts 
下 ° VirtualBox 5.0 for Solaris hosts =amd64 
Community + VirtualBox 5.0 Oracle VM VirtualBox Extension Pack `+ All supported platforms 


Support for USB 2.0 devices, VirtualBox RDP and PXE boot for Intel cards. See this chapter from the User Man 
an introduction to this Extension Pack. The Extension Pack binaries are released under the VirtualBox Personal 
and Evaluation License (PUEL). 
se install the extension pack with the same version as your installed version of VirtualBox! 
here. 


1f you are using VirtualBox 4.0.32, please download the extension pack -+ here. 
* VirtualBox 5.0 Software Developer Kit (SDK) -Al platforms 


Sea the changsiog for what bas chenged. 
You might want to compare 


- SHA2S6 checksums or the 
图 7.1 Virtual Box 下 载 


在 下 载 后 ,运行 安装 文件 ,并 按照 提示 进行 安装 即 可 完成 安装 ,如 图 7. 2 所 示 ( 这 里 采用 
Apple OS X 系统 ,安装 界面 和 使 用 可 能 与 Windows 操作 系统 有 少许 不 同 , 但 是 按照 提示 即 
可 完成 安装 和 使 用 ) 。 

安装 后 即 可 运行 程序 .进入 Virtual Box 程序 界面 ,如 图 7. 3 所 示 。 

下 载 Cent OS 的 安装 镜像 ,访问 Cent OS 官网 http://www. centos. org/download/ 进 
行 下 载 ,如 图 7.4 所 示 。 

选择 DVD ISO ,系统 会 提供 一 些 下 载 地 址 ,选择 一 个 进行 下 载 ,如 图 7.5 所 示 。 
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Welcome to the Oracle VM VirtualBox Installer 


Oracle VM VirtualBox for Mac OS X 


Weicome to Oracle VM VirtualBox 5.0.0 for Mac OS X! This installer will 
guide you through the installation process. In a minute from now, you will 
be able to execute virtual machines running different operating 

on your desktop. You will find that VirtualBox delivers a great feature set 
and excellent performance. 


 GoBsck | Continue 


图 7.2 Virtual Box 安装 界面 


eoe Oracle VM VirtualBox Manager 


aae? -—— 


Welcome to VirtualBox! 


The left part of this window is a list of all virtual machines on your computer. The list is empty now 
because you haven't created any virtual machines yet. 


In order to create a new virtual machine, press the New button in the 


main tool bar located at the top of the window. E 
You can press the 3€? key to get instant help, or visit www.virtualbox.org I I 
for the latest information and news. 


图 7.3 Virtual Box 界面 


nir 
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H CentOS 


Download CentOS 


Need a Cloud or Container Im 


图 7.4 Cent OS 官方 网 站 


CentOS on the Web: CentOS.org | Mailing Lists | Mirror List | IRC | Forums | Bugs | Donate 
In order to conserve the limited bandwidth avallable Iso images are not downioadabie from mirror centos org 

The following mirrors should have the ISO images available 

Actual Country 


httpJmirors nwsual.0du. crucontosi/7/so9A'86. 6A/ContOS-7-x88. 84-DVD-180301.80. 
hitpifmiror.bitodu.cricontos/7/isos/xB8, 64/ContOS-7-x86. 64-DVD-1509-01.80. 
hitpfmirors yur-ide comvcantos/7/scsr86, PÁKCentOS-7-x86. 84-DVD- 1803-01 iso 
hitpihmiror.neu.edu.cricentos/7/sos/x86. 64/CentOS-7-486. 84-DVD-1503-01 iso 
hitpJfmirors zu edu crvcentos/TÍsos/iB6. 6ACentOS-T-88.64-DVD-1509-01 iso 

http mirrors. neusoft edu crvcentow/7/aos/x0. A/CentOS-7-x86. 64-DV0-1503-01 iso 
hitp/fmirors. sina crvcentos/7faos/x86_64/CentOS-7-x86_64-0VD-1503-01 iso 

hp cenos uate edu on/centos/7 /sou xaG_64/C à. 64-0VD-1509.01 lao. 
hitpJ/mirora.Skythe.crucontos/7/isos/x /84-DVD-1503-01 iso 
PitpJ/mirors.cqu.edu.cr/CantOS/7 jos/d86. BA/CentOS-7 486. 64-DVD-1503-01 ito 
hitp/mirors,bita.neticentos/7/sos/x86. 4/CentOS-7-x86. 64-DVO-1503-01.480 

http /mirors.pubyun.com/centos/7 /sos/x86_64/CentOS-7-x86_64-DVD-1503-01.is0 
http /mirors. 169.comcentos/7 /isos/x86._64/CentOS-7.x86_64-DVD-1503-01.is0 

http /Mp sftu.edu.cncentos/7/isos/x86_64/CentOS-7.-x86_64-DVD-1503-01 iso 

http mirora opencas oncentos/7/isos/x86_64/CentOS-7.x86_64-DVD-1503-01 iso 
http /mimors.hustunique.cormcentos/7 /eos x86_64/CentOS-7-x86_64-DVD-1503-01 iso 
http mirrors alyun com/centos/7/is0g/x86_64/CentOS-7-x86_64-DVD-1503-01 iso 


Nearby Countries - 


图 7.5 镜像 下 载 地 址 选择 


在 选择 之 后 等 待 下 载 完 成 。 完 成 下 载 之 后 ,打开 Virtual Box 软件 ,选择 New 命令 。 如 
图 7.6 所 示 ,Name 设置 为 Cent OS. Type 设置 为 Linux. Version 设置 为 Other Linux 
(64-bit). 
之 后 单 击 Continue 按钮 ,进行 内 存 设 置 ,默认 设置 即 可 ,如 图 7.7 所 示 。 
单 击 Continue 按钮 ,进行 硬盘 设置 ,选择 Create a virtual hard disk now 选项 ,如 
.8 所 示 。 
单 击 Create 按钮 ,进入 硬盘 文件 类 型 选择 界面 。 选 择 VDI 模式 即 可 ,如 图 7. 9 所 示 。 
单 击 Continue 按钮 ,进行 物理 硬盘 上 的 存储 设置 ,选择 Dynamically allocated 即 动态 分 
配 硬盘 空间 ,如 图 7. 10 所 示 。 


~ 


m= 
m 
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CE] Oracle VM VirtualBox Manager 


Snapshots 


Please choose a descriptive name for the new virtual machine 
and select the type of operating system you intend to install 
throughout 


7.6 安装 Cent OS 


Welcome Memory size 


Select the amount of memory (RAM) in megabytes to be 
allocated to the virtual machine. 


The recommended memory size is 512 MB. 


a 
S 
MB 


4MB 8192 


GoBack | EE coc 


图 7.7 内 存 设置 
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x machine is created. 


°. The recommended size of the hard disk is 8.00 GB. 
» 


O Do not add a virtual hard disk 
E © Create a virtual hard disk now 


Empty 


If you wish you can add a virtual hard disk to the new 
machine. You can either create a new hard disk file or select 
Y . | one from the list or from another location using the folder icon. 


can pre If you need a more complex storage set-up you can skip this 
k. the latest step and make the changes to the machine settings once the 


(D Use an existing virtual hard disk file 


?| G8 


GoBack | MENS | cancel 


图 7.8 硬盘 设置 


eee Oracle VM VirtualBox Manager 


© vo! (VirtualBox Disk Image) 
CO VMDK (Virtual Machine Disk) 
(O VHD (Virtual Hard Disk) 

(O HDD (Parallels Hard Disk) 
QED (QEMU enhanced disk) 


- 


Please choose the type of file that you would like to use for the new virtual 
hard disk. If you do not need to use it with other virtualization software you 
can leave this setting unchanged. 


_Expert Mode | _ Go Back 


图 7.9 硬盘 文件 类 型 选择 
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Storage on physical hard disk 


Please choose whether the new virtual hard disk file should grow as it is used 
(dynamically allocated) or if it should be created at its maximum size (fixed 
size). 


4 A dynamically allocated hard disk file will only use space on your physical 
hard disk as it fills up (up to a maximum fixed size), although it will not shrink 
automatically space on it is freed. 


A fixed size hard disk file may take longer to create on some systems but is 
often faster to use. 


À © Dynamically allocated 


..| Fixed size 


GoBack | NN cancel 


图 7.10 物理 硬盘 上 的 存储 设置 
单 击 Continue 按钮 ,进行 硬盘 文件 地 址 设置 和 文件 大 小 设置 ,设置 为 10GB 即 可 ,如 
图 7.11 所 示 。 
File location and size 


Please type the name of the new virtual hard disk file into the box below or 
Click on the folder icon to select a different folder to create the file in. 


4 (Cent OS a 


Select the size of the virtual hard disk in megabytes. This size is the limit on 
the amount of file data that a virtual machine will be able to store on the hard 
disk. 


— [seas] 


À 4.00 MB 2.00 TB 


Cona EE cn 


图 7.11 硬盘 文件 地 址 设置 和 文件 大 小 设置 


最 后 单 击 Create 按钮 完成 虚拟 机 配置 。 接 下 来 ,要 启动 虚拟 机 进行 Cent OS 安装 , 选 
择 Start 命令 ,如 图 7. 12 所 示 。 

启动 之 后 选择 下 载 好 的 安装 ISO 镜像 ,选择 Start 命令 ,如 图 7. 13 所 示 。 

之 后 会 开始 安装 过 程 ,出 现 界面 后 按 Enter 键 ,进入 安装 流程 。 第 一 步 选择 【语言 【中 


eoe Oracle VM VirtualBox Manager 
T 

a e? E 3 
eoe A S EXE S 
Í CentOS | Í E) General (E Preview 
lG] So | Name: Cent OS 

| Operating System: Other Linux (64-bit) 

一 i 

| Base Memory: 512 MB 


Acceleration:  VT-X/AMD-V, Nested Paging, 


| Controller: IDE 
| IDE Primary Master: Cent OS.vdi (Normal, 10.00 GB) 
IDE Secondary Master: [Optical Drive] Empty 


Floppy, Optical, Hard Disk 


PAE/NX, KVM Paravirtualization. 


| Q Audio 


Adapter 1: 
[2 use 


GP Network 


Intel PRO/1000 MT Desktop (NAT) 


| | USB Controller: OHCI 
|, Device Filters: 0 (0 active) 


文 了 命令 ,如 图 7.14 所 示 。 


单 击 【继续 3 按钮 ,进入 综合 配置 ,选择 【安装 位 置 了 民 自 动 分 区 了 命令 


钮 ,如 图 7. 15 所 示 。 


< optical drive containing a disk to start your new virtual 
machine from. 
The disk should be suitable for starting a computer from 


图 7.12 虚拟 机 界面 


Please select a virtual optical disk file or a physical 


and should contain the operating system you wish to 
install on the virtual machine if you want to do that now. 
The disk will be ejected from the virtual drive 

next time you switch the virtual machine 
off, but you can also do this yourself if needed using the 
Devices menu. 


| CentOS-7-x86_64-DVD-1503-01.iso (4.01 GB) 同 


Go Back Start. Cancel | 


图 7.13 选择 镜像 


后 , 单 击 【完成 了 按 


选择 [软件 选择 命令 ,再 选择 KGNOME 桌面 3 命令. 单 击 【完成 按钮 ,如 图 7. 16 所 示 。 
之 后 单 击 【 开 始 安 装 ] 按 钮 ,设置 Root 密码 并 创建 用 户 ,等待 ,如 图 7.17 所 示 。 
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. 
Cent OS [Running] 
CENTOS 7 安装 
Blu Help! 
CentOS WELCOME TO CENTOS 7. 
您 在 安装 过 程 中 想 使 用 晨 种 语言 ? 
ovenitma Slovenian REPA (AA) 
ship we REP (中 国 香港 特别 行政 区 ) 
Cpncen ian 简体 中 文 [新加坡 ) 
Svenska edish 
Telug 
Tow 
Inu Tha 
Türkçe Turkish 
Ykpaiuceka Ukrainian 
3 Urdu 
IsZulu 
TI a 
图 7.14 
ERMENE CENTOS 7 安装 
* Een Help! 
本 地 化 
日 期 和 时 间 (T) 键盘 (K) 
亚洲 /上 海 时 区 Gi 
语言 支持 (L) 
MEPR (中 国 ) k 
软件 
安装 源 () 
本 地 介质 
系统 
安装 位 置 (D) KDUMP (K) 
已 进 友 启动 分 区 已 启用 Kdump 


NETWORK & HOST NAME 
iie 


masua ETN 


FTE TI 


图 7.15 综合 配置 
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基本 环境 已 选 环境 的 附加 选项 
[TET] ELA] 
基本 功能. 用 连接 到 备份 朋 务 器 并 进行 各 份 的 客户 入 工具 、 
计算 节点 
执行 计算 及 处 理 的 安装。 GNOME 应 用 程序 
基础 设施 服务 四 组 经 党 使 用 的 GNOME AAR. 
BTACRHBRGEEADEA. HRNAAES 
XfRUBNAM sn IER. BXKRHRUNI. 
mre 
pobre 和 á 传统 x Windows 系统 的 妆容 性 
RE Rawana， 用 于 从 继承 X Windows BERI EERETRETHAOR RISE RA, 
化 主机 
N DOERRIE 
NER 
BUERIER, $RDDRRURACPRIM, 
带 GUI 的 服务 器 WEtih 
JEWIETIMTRREAERINURA cu 的 服务 器. 支持 合用 才能 卡 验证 . 
munas 
p= MTT IS nox 的 之 旧版 本 中 构建 的 应 用 程序 的 妆容 程序 库 . 


GNOME 是 一 个 非常 直观 且 用 


开发 
KDE Plasma Workspaces 基本 开发 环境 


KDE Plasma Workspaces 是 一 个 高 度 可 配置 图 形 用 户 界面 ， 其 中 包括 面 安全 性 工具 
板 、 米 面 、 系 统 图 标 以 及 类 面向 导 和 要 多 功能 强大 的 KDE 应 用 程序 用 于 完整 性 和 可 信 验 证 的 安全 性 工具 
开发 及 生成 工作 站 


用 于 软件 、 硬 件 、 图 形 或 者 内 容 开发 的 工作 站 . 


üəosezamuQooeunx < 


图 7.16 软件 选择 


CENTOS 7 安装 


x Bio Help! 


CentoS 用 户 设置 


ROOT 密码 创建 用 户 (U) 
在 Root SERLE Taf 


> 正在 雪 装 Wokkc-daka (42/1258) 


CentOS Promotion SIG 


oting CentOS ts, conferences and ev 


aos2sswOQux ; 


图 7.17 配置 
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安装 结束 后 单 击 【 重 启 3 按 钮 , 即 可 完成 ,如 图 7. 18 所 示 。 


ER CENTOS 7 安装 
* Bo Help! 
CentOS z 
z 创建 用 户 ( 
x! 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
CentOS 已 戌 功 安装 到 你 的 计算 机 并 本 重启 然后 使 用 吧 ! 
ma) 


图 7.18 完成 安装 


重启 后 完成 相关 设置 即 可 使 用 ,如 图 7. 19 所 示 , 单 击 Start using CentOS Linux 按钮 。 


您 的 电脑 已 准备 就 绪 。 


您 可 以 随时 在 “系统 设置 ”中 更 改 这 些 选项 。 


图 7.19 完成 配置 
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最 后 可 以 在 Virtual Box[SE rh ,选择 安装 Virtual Box Guest Additions 以 保证 系统 
的 最 佳 状态 。 


7.2.2 JDK 安装 
由 于 Hadoop 是 由 Java 语言 开发 的 ,所 以 需要 安装 JDK ,如 图 7. 20 所 示 。 


Sign In/Register Help Country v Communities v lama. v Iwantto.. v | Search 


ORACLE 


Products Solutions Downloads Store Support Training Partn, 


Oracle Technology Network 


Java SE Overview | Downloads | Documentation | Community | Technologies |( Training. 


Java EE 
Java ME Java SE Downloads 
Java SE Support 

Java SE Advanced & Suite 


Java Embedded. ¢ 
= Java NetBeans 

ED =Æ Java @ 

Web Tier 

Java Card m 

Java TV Java Platform (JDK) 8u51 NetBeans with JDK 8 

New to Jan 

denied Java Platform, Standard Edition 
Community 
四 Java SE 8u51 
9 This release includes important security fixes. Oracle strongly recommends that all Java SE 8 
users upgrade to this release 
Learn more » 

* Installation Instructions JDK 
cma 
* Oracle License 
* Java SE Products Server JRE 
* Third Party Licenses DOWNLOAD $ 
+ Certified System Configurations 
* Readme Files 


图 7.20 JDK 下 载 页 面 


选择 JDK 下 面 的 Download 选项 卡 , 进 入 JDK 下 载 页 面 。 选 择 Accept License 
Agreement 选项 接受 条 款 , 选 择 rpm 版 本 的 Linux x64 平台 下 的 JDK 进行 下 载 ,如 图 7. 21 
所 示 。 之 后 等 待 即 可 。 

在 安装 JDK Ži, HIA Cent OS 自 带 的 OpenJDK。 选 择 【 应 用 程序 ] 民 终端 】 
命令 。 

输入 命令 rpm-qal grep openjdk-i, 查 询 已 经 安装 的 OpenJDK ,如 图 7. 22 所 示 。 

输入 命令 sudo yum remove java-1. 7. 0-openjdk-1. 7. 0. 75-2. 5. 4. 2. el7_0. x86_64 java- 
1. 7. 0-openjdk-headless-l. 7. 0. 75-2. 5. 4. 2. el7. 0. x86 64 fX OpenJDK。 将 会 要 求 输入 
密码 ,并 会 要 求 确认 ,输入 y 后 按 Enter 键 , 即 可 确定 完成 印 载 ,如 图 7. 23 所 示 。 

之 后 进行 安装 JDK ,运行 下 载 的 jdk-8u51-linux-x64. rpm 程序 , 单 击 [安装 了 按钮 ,进行 
JDK 的 安装 ,如 图 7. 24 所 示 。 

之 后 打开 终端 ,输入 java-version, 出 现 如 图 7. 25 的 信息 则 说 明 安装 成 功 。 
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Oracle Technology Ne , a SE > Downloads 
mase Overview | Downloads [Documenision | Communty | Technologies || Training DICE To 
E Jc, | rs l  Tececiosies xe. š mast 
Ju Java SE Development Kit 8 Downloads $ mna EE and Gisssish 
Jm SE Support Thank you for downioading tnis reease of he Java™ Platform, Standard Editon Development Kk 3 Java ME 
== LOK =) Tha DX + a development envronmere tor bulding appácarons, appiets, anc components sano 

| Es using the Java programming language. pince 

Ë The JOK Includes ioos useful tor developing and testing programs weiten in me Java programming š ; 
Jma Da + Java Mission 
= language and runring on tne Java ptatlorm. z Min td 

= Soc a awaspa; 
Ima Cad oe : 
= dava Developer Newsletter (ick the checkbox under Subscription Center > Oracie Technology 3 daya aPis 
maw News) pe » 
Naw to vn + Java Developer Day hands-on workshops (ree) and other events 3D. d Videos 
Communty + Java Magazine 5E 
era pci JOK au51 Checksum 3 dmn Magazine 
Looking for JOK 8 on ARM? 
JOK 8 or ARM downloads have moved to the JOK 8 lor ARM download page. dam 
Java SE Development Kit 8u51 Š Iuprais 
You must accept the Oracie Binary Code License Agreement for Java SE to download this 3 amazon 
© Accept License Agreement — Decline License Agreement 3 
Product / File Description File Size Download 5 Java 
nux 86 1469 ME  JdcBu514nuxdHó rpm Virtual 
Linux x J65 95MB jf 8151 anus 686 tar gz 
rr 145 19 MB jdk 8u51 nue 64 pn Technology 
Lnux 54 16525MB j4-82514nJ-x64 tar gr Summit 
Mac OS Xx&4 222 09 MB Jd-8u51-macom x54 dmg ay Mi Ibo and zard 
Solans SPARC 64-bit (SVR4 package) 19MB yac8u5l-aolans-sparc va tar Z 
Solanis SPARG 64-bit 的 有 MB je B45 1-solaris sparcid tar gr 
Solaris x64 (SVR4 package) T3979 MB jk 8451-solaris 6412 Z 
Solans x64 9645MB “8451-9olanis-r64 tar gz 
Windows x86 T7B02MB “jar8u51-wndows-586 exe 
Windows x64 180 51 MB jh-Bu51-wndows-64 exe 


图 7.21 JDK 下 载 页 面 


hadoop@localhost:~ 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 
[hadoop@localhost `] $ rpm -qal grep openjdk -i 

java-1 .7.0- openjdk-1.7.0.75-2.5.4.2.e17 0.x86 64 
java-1.7.0- openjdk- headless-1.7.0.75-2.5.4.2.e17 0.x86 64 
[hadoop@localhost ^]$ a 


1/4 @ 
cogma gis ; 


图 7.22 查询 OpenJDK 


第 7 章 Hadoop || 175 


hadoop@localhost:~ E] 


文件 (F) 编辑 (E) 查看 (V) RRS) 终端 (T) 帮助 (H) 
[hadoop&localhost ^|$ sudo yum remove java-1.7.0-openjdk-1.7.0.75-2.5.4.2.el7_0. 
x86 64 java-1.7.0- openjdk- headless-1.7.0.75-2,5.4,2.e17 0.x86 64 


We trust you have received the usual lecture from the local System I 
Administrator. It usually boils down to these three things: 


#1) Respect the privacy of others. 
82) Think before you type. 
#3) With great power comes great responsibility. 


[sudo] password for hadoop: 

已 加 载 插件 : fastestmirror, langpacks 

IE fE APR fk p>: F. 

--> 正 在 检查 事务 

---> 软件 包 java-1.7.0-openjdk.x86_64.1.1.7.0.75-2.5.4.2.e17 0 将 被 删除 

--> 正 在 处 理 依赖 关系 java >=1:1.6, 它 被 软件 包 1:libreoffice-core-4,2.6.3-5. el7. 
x86_64 需要 

--> 正 在 处 理 依赖 关系 java >= 1.5. 它 被 软件 包 jline-1.0-8.el7.noarch 需要 

c QE RAXA java-1.7.0- openjdk， 它 被 软件 包 icedtea-web-1.5.2-0.e17. x86 | 
64 需要 

--> IAE MHRMOUR jre >=1.5.0, THE 1: libreoffice-ure-4.2,6,3-5, el7. x8 
664 需要 

-一 > 软件 包 java-1.7.0- openjdk- headless. x86 64.1.1.7.0.75-2.5.4.2.e17 0 将 被 W 


= 


图 7.23 $ OpenJDK 


Gk-Bu5i-Hnux-XO4. ^ nadoop-Z./.1.tar.gz 


是 否 要 安装 此 文件 ? 


jdk-8u51-linux-x64.rpm 


| 取消 (c) | 安装 | 


7.24 JDK 安装 


hadoop@localhost:~ 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 T) 帮助 (H) 
| hadoopSlocalhost `]$ java -version 
java version "1.8.0 51* 


|| hadoop&localhost `]$ M 


7.25 JDK 信息 查询 
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至 此 ,安装 Hadoop 前 的 全 部 配置 工作 已 经 完成 。 下 面 讲 解 Hadoop 的 安装 和 配置 
内 容 。 
7.2.3 Hadoop 下 载 


通过 浏览 器 访问 Hadoop 官网 ,地 址 为 http://hadoop. apache. org/. 官方 网 站 
如 图 7.26 所 示 。 


A— Çh 


Ea] 
ma e 
m—— /rors non 
Welcome to Apache™ Hadoop®! a 


— f what Is Apache Hadoop? 


The Apache" Hadoop project develops epe source softsare for relie, scalable. ditibuted computing. 


Th apache rotoo software Navary ie a Formork that se Yor e detibed gecesing arp dt ste acus user of compter vig mpl 
[o 
n top ofa cluster of computers, each ol nich may be prons t faires. 
The project inches thoro modus 
+ Hadoop Common: The common vilis that support the her Hadoop modules 
+ Hadoop Distributed File System (MOFS™): A detibutad le system that provides high-throughput acces to application data 
+ Hadoop YARN: A ramemerk for eb scheduling and cluster resource management 
* Madoop Mapltedace: A YARN based system for paralisi processing f large data sets. 
Other Vadoop- related projects at apache incide: 


ard abay io view Maga duc. Fig aed We application visual acnqei feature to dagose ter perfomunce charactensbcs ina user endi 


+ Amt": A data serialization system. 

+ Cassandra” A scalable mn-master database with no singe ports of flue 

* Canoa: A data collection system for maraging large detrtuted systems. 

* Mise A scalanie, distributed database Orat supports structured data storage for large tabes 
^ Mire A data warehouse infrastructure that provides data summarization and ad hoc querying 


图 7.26 Hadoop 官方 网 站 首页 


在 右 侧 边栏 中 选择 Release 中 的 Download 进入 Hadoop 下 载 信息 页 面 , 如 图 7. 27 
所 示 。 


Apache Hadoop Releases 


Download 


Hadoop is released as source code tarballs with corresponding binary tarballs for convenience. The downl 
checked for tampering using GPG or SHA-256. 


2.21 06 July, 2015 source signature. 53E 

binary signature 991 

Y 2.6.0 18 Nov, 2014 source. signature. Sue 
arae binary signature ZA 
Documentation Z52 19 Nov, 2014 source aignature as 
Related Projects binary signature per 


To verify Hadoop releases using GPG: 
Download the release hadoop-xX.Y.Z-src.tar.gz from a mirror site. 
Download the signature file hadoop-X.Y.Z-src.tar.gz.asc from Apache. 
Download the Hadoop KEYS file. 
gpg —import KEYS. 

i. gpg verify hadoop-X.Y.Z-src.tar.gz.asc 


"PE 


To perform a quick check using SHA-256: 


1. Download the release hadoop-X.Y.Z-src.tar.gz from a mirror site. 
2. Download the checksum hadoop-X.Y.Z-src.tar.gz.mds from Apache. 


图 7.27 Hadoop 下 载 页 面 
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在 Download 项 中 有 可 供 下 载 的 版 本 信息 、 释 放 日 期 等 信息 。 每 个 版 本 都 会 提供 
source 和 binary 版 本 的 下 载 。source 是 源 代 码 , 在 下 载 后 需要 自行 编译 ,binary 为 二 进 制 
可 执行 版 本 ,已 经 编译 完成 ,下 载 后 即 可 运行 。 

选择 想 要 下 载 的 版 本 的 binary, 之 后 进入 下 载 页 面 。 该 页 面 会 显示 一 些 下 载 镜像 地 址 ， 
选择 一 个 开始 下 载 ,如 图 7. 28 所 示 。 


f nomeso Abou Projets 。 People- — Getimvohed- Download Support Apache = 


WS Apache 


Software Foundation 


Community-led development since 1999. 


We suggest the following mirror site for your download: 
htp mirrors ennie cnapache hadooplcommon hadoop 2 7 Lhadoop 2 7-1 tar ge 


Other mirror sites are suggested below. Please use the backup mirrors only to download PGP and MDS signatures to verity your downloads or If no other mirrors are 
working 


HTTP 


http [mirrors ennie cn apache hadoopicommon hadoop 2.7. Vhadoop 27:1 tar gr 


itp: mirrors hus edu.cn/apacheibadoopicommon hadoop 27 1hadoop 27.Ltar gr 
htp mirror.bitedu cwapache/hadoopicommon/hadoop 2.7 Vhadoop 27.1 tar ge. 


Mtp: apache fayea com/hadoopicommon/hadoop 2-7 Uadoop 271 tar ge. 


Mp; apache. dataguru cn/badoopicommon/hadoop 22. Vhadoop.27.1tar gr. 


mazcunun erre 


图 7.28 Hadoop F #Ë 


7.2.4 Hadoop 单机 模式 配置 


下 载 完 成 后 将 hadoop-2. 7. 1. tar. gz 解压 到 桌面 。 进 入 hadoop-2. 7. 1/etc/hadoop X 
件 夹 ,找到 hadoop-env. sh , 右 击 ,选择 [使 用 gedit 打开 3] 命令 ,如 图 7. 29 所 示 。 


hadoop-env.sh (~/ 课 面 /hadoop-2.7.1/etc/hadoop) - gedit - ü x 

文件 (F) 编辑 (E) 查看 (V) WRS) IAT) 文档 (D) 

O BaF ~ he G M c |< G P TQ Q 

图 hadoop-env.sh x 
# 
#  http://www.apache. org/ Licenses/ LICENSE-2.0 
# 
# Unless required by applicable law or agreed to in writing, software 


# distributed under the License is distributed on an "AS IS" BASIS, 
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 
implied. 

# See the License for the specific language governing permissions and 
# limitations under the License. 


# Set Hadoop-specific environment variables here. 


# The only required environment variable is JAVA_HOME. ALL others are 
# optional. When running a distributed configuration it is best to 

# set JAVA_HOME in this file, so that it is correctly defined on 
# remote nodes. 


* 


The java implementation to use. 
export JAVA HOME-/usr/java/jdk1.8.8 51 


sh v MERTE: Bv 1721, 3058 ”插入 


7.29  hadoop-env. sh 文件 
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修改 export JAVA_HOME 王 后 的 内 容 为 /usrV/java/jdkl. 8. 0_.51。 选 择 【 保 存 】 命 令 。 
完成 配置 。 
之 后 打开 终端 输入 命令 


eg = 

mkdir input 

cp 一 /桌面 /hadoop - 2. 7. 1/etc/hadoop/ * .xml input 

一 /桌面 /hadoop - 2. 7. 1/bin/hadoop jar 一 /桌面 /hadoop - 2. 7. 1/share/hadoop/mapreduce/ 
hadoop - mapreduce — examples - 2. 7.1. jar grep input output 'dfs[a —z.] + " 


如 图 7.30 所 示 。 


hadoop@localhost:~ 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 

[hadoop@localhost `$ cd ^ 

[hadoop@localhost `] $ mkdir input 

[hadoop@localhost ^|$ ls 

input 公共 模板 视频 图 片 文档 TË 音乐 桌面 

[hadoop@localhost ^|$ cp ^/J&iB /hadoop-2.7.1/etc/hadoop/*. xml input 
[hadoop&localhost ~] $ ~/Æ M /hadoop-2.7.1/bin/etc jar ~/Æ M /hadoop-2.7.1/s 
hare/hadoop/mapreduce/hadoop- mapreduce- examples-2.7.1.jar grep input output 
' dfs[a- z.] -P 

bash: /home/hadoop/ (E /hadoop-2.7.1/bin/etc: 没有 那个 文件 或 目录 
[hadoop@localhost ^]$ ^/Xi& /hadoop-2.7.1/bin/hadoop jar “/ 桌 面 /hadoop-2.7. 
1 /share/hadoop/mapreduce/hadoop- mapreduce- examples-2.7.1.jar grep input outp 
ut 'dfs[a-z.]-P 

15/07/18 23:42:11 INFO Configuration. deprecation: session.id is deprecated. 
Instead, use dfs.metrics.session- id 

15/07/18 23:42:11 INFO jvm.JvmMetrics: Initializing JVM Metrics with process 
Name-JobTracker, sessionld— 

15/07/18 23:42:13 INFO input.FileInputFormat: Total input paths to process : 
8 


[15/07/18 23:42:13 INFO mapreduce.JobSubmitter: number of splits: 8 

15/07/18 23:42:13 INFO mapreduce.JobSubmitter: Submitting tokens for job: jo 
Ib 10cal373032523 0001 

[15/07/18 23:42:14 INFO mapreduce.Job: The url to track the job: http: //local 
host: 8080 / 


图 7.30 Hadoop 单机 模式 


7.2.5 Hadoop 4$ 2-76 € A B E 


首先 进入 hadoop-2. 7. 1/etc/hadoop 文件 夹 , 在 core-site. xml 文件 上 右 击 ,选择 [打开 
方式 【使 用 gedit 打开 命令 。 
将 如 下 代码 填写 到 文件 中 ,并 保存 ,如 图 7. 31 所 示 。 
< configuration> 
<property> 
< name > fs. defaultFS «/name > 
< value» hdfs://localhost:9000 </value > 
</property> 
</configuration> 
之 后 找到 hdfs-site. xml 文件 ,并 使 用 gedit 打开 .将 如 下 代码 填写 到 文件 中 ,并 保存 文 
件 ,如 图 7.32 所 示 。 
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*core-site.xml (^/ilil /hadoop-2.7.1/etc/hadoop) - gedit 
文件 (F) 编辑 (E) 查看 (V) 搜索 (Ss) IAT) 文档 (D) 
LO BaF v Awg w E | c 


[-] hadoop X | |ë) *core-sitexml x | 
| You may obtain a copy ot the License at 


http://www.apache.org/ Licenses/LICENSE-2.0 


Unless required by applicable law or agreed to in writing, software 

distributed under the License is distributed on an "AS IS" BASIS, 

WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 
implied. 

See the License for the specific language governing permissions and 

limitations under the License. See accompanying LICENSE file. 


- Put site-specific property overrides in this file. 


«configuration» 
«property» 
«name»fs.defaultFS«/name» 
«value»hdfs : //localhost :9000«/value» 
</property>] 
</configuration> 


XML v 制 表 符 宽度 : 8 v 行 23, 列 16 


图 7.31 core-site. xml 文件 


*hdfs-site.xml (~/ 桌 面 /hadoop-2.7.1/etc/hadoop) - gedit 
文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 工具 (T) 文档 (D) 
O Bm v dem | 
| l hadoop * | [8] *core-sitexmL > / 回 *hdfs-sitexml x | 


You may obtain a copy of the License at 


http://www.apache.org/licenses/LICENSE-2.0 


Unless required by applicable law or agreed to in writing, software 
distributed under the License is distributed on an "AS IS" BASIS, 
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or 

implied. 

See the License for the specific language governing permissions and 
limitations under the License. See accompanying LICENSE file. 

> 


<!-- Put site-specific property overrides in this file. --> 


<configuration> 
<property> 
<name>dfs. replication</name> 
<value>1</value> 
</property> 
</configuration>] 


制 表 符 宽度 : 8v 行 24, 列 17 


图 7.32 hdfs-site. xml 文件 
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< configuration» 
< property» 
< name > dfs. replication «/name > 
« value» 1 </value > 
</property> 
</configuration> 


接 下 来 进行 免 密 码 登录 SSH 设置 ,打开 终端 输入 命令 ssh localhost, WE 7. 33 所 示 ， 
如 果 需 要 输入 密码 登录 SSH, 则 需要 输入 命令 设置 免 登录 SSH. 


hadoop@localhost:= 
文件 (F) IMRE) 查看 (V) WRC) HAT) 帮助 (H) 
| hadoop&localhost -|$ ssh localhost 
IhadoopéiLocathost's password: 
|Last failed login: Sun Jul 19 07:51:34 CST 2015 from localhost on ssh: notty 
[There were 3 failed login attempts since the last successful login. 

i0: 


HH 7.33 SSH 登录 测试 
输入 以 下 代码 进行 设置 


ssh- keygen -t dsa -P '' -f ~/.ssh/id_dsa 
cat —/.ssh/id dsa.pub >> ~/. ssh/authorized_keys 
export HADOOP\_PREFIX = /usr/local/Hadoop 


如 图 7.34 所 示 。 


hadoop@localhost:= 


文件 (F) 编辑 (E) 查看 (v) RS) 终端 (T) 帮助 (H) 

hadoop@l ocalhost' s password: 

Last failed login: Sun Jul 19 07:51:34 CST 2015 from localhost on ssh| 
There were 3 failed login attempts since the last successful login. 
Last login: Sat Jul 18 20:40:04 2015 

[hadoopülocalhost "]$ ssh-keygen -t dsa -P '' -f 7/.ssh/id dsa 
Generating public/private dsa key pair. 

Your identification has been saved in /home/hadoop/.ssh/id dsa. 

Your public key has been saved in /home/hadoop/.ssh/id dsa.pub. 


-| DSA 1024] --- -十 


.ssh/id dsa. pub >> -/. ssh/authorized keyl 


图 7.34 SSH 免 登录 设置 
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接 下 来 介绍 在 本 地 运行 MapReduce。 

首先 要 修改 几 个 配置 文件 ,打开 hadpoop-2. 7. 1 文件 夹 ,进入 etc 文件 夹 中 hadoop X 
件 夹 内 ,找到 yarn-env. sh, 使 用 gedit HF Z. S 8l # someJava parameters 这 行 代码 ,将 其 
下 方 的 代码 去 掉 # 号 注释 ,并 修改 为 export JAVA. HOME —/usr/java/jdkl. 8.0_51。 之 
后 将 文件 保存 ,如 图 7.35 所 示 。 


yarn-env.sh (~/ 课 面 /hadoop-2.7.1/etc/hadoop) - gedit 
文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 工具 (T) 文档 (D) 


@ yarn-env.sh X 
export HAD00P_YARN_USER=$(HADOOP_YARN USER: -ya rn} 


M' resolve links - $0 may be a softlink 
export YARN CONF DIR-"$(YARN CONF DIR:-$HADOOP YARN HOME/conf]" 


|f some Java parameters 
export JAVA HOME-/usr/java/jdk1.8.0 51 


if [ "$AVA HOME" I= "" ]; then 
#echo "run java in $JAVA HOME'| 
JAVA HOME-$JAVA HOME 

fi 


jif [ "$JAVA HOME" = "" ]; then 
echo "Error: JAVA HOME is not set." 
exit 1 

fi 


|JAVA-$2AVA HOME/bin/java 
JAVA HEAP MAX--Xmx1680m ë 
sh v BERAR: 8 v 行 26, 列 3 插入 


图 7. 35 yarn-env. sh 文件 设置 


接 下 来 进入 hadoop-2. 7. 1 文件 夹 下 的 libexec 3c fF Jc ,找到 hadoop-config. sh 文件 ,并 
使 用 gedit 打开 。 

找到 如 下 的 代码 : 

# Newer versions of glibc use an arena memory allocator that causes virtual 

# memory usage to explode. This interacts badly with the many threads that 

# we use in Hadoop. Tune the variable down to prevent vmem explosion. 
在 其 下 方 添加 export JAVA _ HOME = /usr/java/jdk1. 8. 0_51。 之 后 将 文件 保存 , 如 
E 7.36 所 示 。 

首先 要 格式 化 HDFS 文件 系统 。 打 开 终端 ,输入 如 下 命令 并 执行 : 

cd 一 /桌面 /hadoop - 2.7.1/ 

bin/hdfs namenode - format 

如 果 执 行 后 出 现 错误 ,重启 系统 ,如 图 7.37 所 示 。 

之 后 启动 NameNode 守护 进程 和 DataNode 守护 进程 。 在 终端 中 执行 如 下 命令 : 


sbin/start - dfs. sh 


之 后 可 能 会 要 求 输入 用 户 密码 ,输入 正确 密码 并 按 Enter 键 ,如 图 7. 38 所 示 。Hadoop 
守护 日 志 会 写 人 $ HADOOP LOG DIR 文件 夹 中 (默认 在 $ HADOOP. HOME/logs 中 ) 。 
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hadoop-coni 


文件 (F) #8(E) 查看 (V) 搜索 (5) 工具 (T) 文档 (D) 
"E ELS , 
B hadoop-confg sh X 


exit 1 
fi 


|f Newer versions of glibc use an arena memory allocator that causes 
lvi rtual| 
|& memory usage to explode. This interacts badly with the many threads 
that 
| we use in Hadoop. Tune the variable down to prevent vmem explosion. 
export MALLOC ARENA MAX-$(MALLOC ARENA MAX:-4) 
export JAVA HOME-/usr/java/]dk1.8.8 51 
|f Attempt to set JAVA HOME if it is not set 
-z $JAVA HOME ] 
oma (or /Library for older versions) 
(uname -s)" ]; then 
if [ -x /usr/Libexec/Java home ]; then 
export JAVA HOME-($(/usr/Libexec/]ava home)) 
else 
export JAVA HOME-(/Library/Java/Hone) 
fi 


shv 制 表 符 宽度 : Sv 行 162, 列 76 MA 


图 7.36 hadoop-config. sh 文件 设置 


hadoopGlocalhost:"/Ailii/hadoop-2.7.1 
文件 (F) IMACE) 查看 (v) 搜索 (5) ET) 帮助 (H) 


[hadoop#tocalhost `] $ cd -/&I /hadoop-2.7.1/ 
| hadoop#tocalhost hadoop-2.7.1]$ bin/hdfs namenode - 


format 


Starting NameNode 
[STARTUP MSG: host = localhost/127.0.0.1 


[STARTUP MSG: classpath = /home/hadoop/ 8 /hadoop-2.7.1 /etc/hadoop: /home/hadoo| 
|p/ li /hadoop-2. 7.1 /shara/hadoop/comnon/11b/commons- configuration-1.6, jar: /homo/ 


Inadoop/& El /hadoop-2. 7.1 /share/hadoop/common/ Lib/gson-2.2. 4. jar: /hone/hadoop/ £ 

[hadoop-2. 7.1 /share/hadoop/comnon/lib/activation-1.1. jar: /howe/hadoop/ fi /had| 
loop- 2. 7. 1 /share/hadoop/ common/1ib/ j ackson- j axrs-1.9.13. jar: /hone/hadoop/& fi /had| 
/share/hadoop/comon/\ib/ jsp. api: 2.1 //hadoop/& š /hadoop- 2. 7.1 
|] share/hadoop/common/1ib/  axb- inpl-2.2. 


hadoopQilocalhost:"/Xtilii /hadoop-2.7.1 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 

5/07/21 22:05:21 INFO util.GSet: 0.029999999329447746% max memory 
.0 KB 
[5/07/21 22:05:21 INFO util.GSet: capacity = 215 = 32768 entr] 
[L5/07/21 22:05:21 INFO namenode.FSImage: Allocated new BlockPool Id: 
127 .0.0.1- 1437487521186 
[L5/07/21 22:05:21 INFO common. Storage: Storage directory /tmp/hadoo 
name has been successfully formatted. 

5/07/21 22:05:21 INFO namenode.NNStorageRetentionManager: Going to 
lges with txid >= 0 
[L5/07/21 22:05:21 INFO util.ExitUtil: Exiting with status 0 
[5/07/21 22:05:21 INFO namenode.NameNode: SHUTDOWN MSG: 

|[ F3 X EXX KH XOHEROLER HOO EEIOHE HEU HE e eene 
SHUTDOWN MSG: Shutting down NameNode at localhost/127.0.0.1 

VO HT EE HEREX ER EHER EHE ER ERE sssi 
[hadoop@localhost hadoop-2.7.1]$ sbin/start-dfs.sh 
Starting namenodes on [localhost] 
lhadoop&localhost's password: 

ocalhost: starting namenode, logging to /home/hadoop/&iB /hadoop-2 
loop- hadoop- namenode- Localhost. Local domain. out 
hadoop&localhost's password: 


Æ 7.38 启动 Hadoop 守护 进程 
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使 用 浏览 器 访问 NameNode 网 页 界面 的 默认 网 址 http://localhost:50070/, 如 图 7. 39 


所 示 。 


N Apache Hadoop 27.. x | Namenode information — x |+ 


Namenode information - Mozilla Firefox 


Overview 'localhost:9000' (active) 


started: Te a scr cas 
Vernon: —————— 
Copies rr by pbr from (rares trom reos) 
cuntar m: nsom -ooranic aaa 

Med vool 10: wamra oosa 
Summary 

sena ort. 

"— 


图 7.39  NameNode 网 页 界面 


使 HDFS 文件 夹 被 要 求 处 理 MapReduce 的 工作 ,在 终端 输入 如 下 代码 : 


bin/hdfs dfs - mkdir /user 
bin/hdfs dfs - mkdir /user/< username > 


如 图 7. 40 所 示 。 


hadoopQlocalhost:"/Xffii /hadoop-2.7.1 
文件 (F) 编辑 (E) 查看 (v) d) (s) 终端 T) 帮助 (H) 
[hadoop@localhost `]$ cd -/ 桌 面 /hadoop-2.7.1/ 
[hadoop@localhost hadoop-2.7.1|$ sbin/start- dfs. sh 
Starting namenodes on [localhost] 
hadoop&iLocalhost's password: 
[Localhost: namenode running as process 4127. Stop it first. 
hadoopðlocalhost' s password: 
|Locathost: datanode running as process 5101. Stop it first. 
Starting secondary namenodes [0.0.0.0] 
hadoop80.0.0,0' s password: 


[hadoop&localhost hadoop-2.7.1]$ bin/hdfs dfs -mkdir /user 


[hadoop&Localhost hadoop-2.7.1]$ N 


7.40 创建 文件 夹 
接 下 来 将 输入 文件 复制 到 分 布 式 文件 系统 中 ,在 终端 输入 如 下 代码 : 


bin/hdfs dfs — put etc/hadoop input 


0.0.0.0: secondarynamenode running as process 4622. Stop it first. 


[hadoop&localhost hadoop-2.7.1]$ bin/hdfs dfs -mkdir /user/hadoop 
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如 图 7. 41 所 示 。 


hadoopQllocalhost:"/Kll /hadoop-2.7.1 Velia 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (TD) 帮助 (H) 
[hadoopélocalhost hadoop-2.7.1]$ bin/hdfs dfs -put etc/hadoop input 


[hadoop&localhost hadoop-2.7.1]$ 
[hadoop&localhost hadoop-2.7.1]$ M 


图 7.41 输入 文件 复制 到 分 布 式 文件 系统 
接 下 来 运行 提供 的 一 些 样 例 , 在 终端 输入 如 下 代码 : 


bin/hadoop jar share/hadoop/mapreduce/hadoop - mapreduce — examples - 2. 7. 1. jar grep input 
output 'dfsa- z.] + " 


如 图 7. 42 Bros o 


hadoopQlocalhost:"/Kifi /hadoop-2.7.1 g | 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 
Combine input records=0 
Combine output records=0 
Reduce input groups-b 
Reduce shuffle bytes-291 
Reduce input recordsdl 
Reduce output recordszil 
Spilled Records-e2 
Shuffled Maps = 
Failed Shuffles-0 
Merged Map outputs 
GC time elapsed (ms)-50 
Total committed heap usage (bytes)-294395904 
Shuffle Errors 
BAD ID-0 
CONNECTION-O 
IO ERROR-D 
WRONG LENGTH-O 
WRONG MAP-O 
WRONG REDUCE-O 
File Input Format Counters 
Bytes Read-437 
File Output Format Counters 
Bytes Written 97 
hadoop@localhost hadoop-2.7.1]$ 


图 7.42 运行 样 例 代码 


接 下 来 查看 样 例 输出 ,将 样 例 输出 从 分 布 式 文件 系统 复制 到 本 地 ,并 进行 查看 ,在 终端 
输入 如 下 代码 : 


bin/hdfs dfs - get output output 
cat output/ * 


如 图 7.43 所 示 。 
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hadoopQlocalhost:"/Xfl /hadoop-2.7.1 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (TD) 帮助 (H) 
10 ERROR-O 
WRONG LENGTH-O 
WRONG _MAP=0 
WRONG REDUCE-O 
File Input Format Counters 
Bytes Read-437 
File Output Format Counters 
Bytes Written 了 97 
[hadoop8localhost hadoop-2.7.1]$ bin/hdfs dfs - get output output 
15/07/21 22:54:01 WARN hdfs.DFSClient: DFSInputStream has been closed already 
[[5/07/21 22:54:01 WARN hdfs.DFSClient: DFSInputStream has been closed already 


[hadoop&localhost hadoop-2.7.1]$ cat output/* 

dfs, audit, logger 

dfs. class 

dfs, server, namenode, 

dfs. period 

dfs, audit. log. maxfilesize 

dfs. audit, log. maxbackupindex 

dfsmetrics. log 

dfsadmin 

dfs, servers 

dfs, replication 

dfs. file 
hadoopBlocalhost hadoop-2.7.1]$ 


NNI WE 


图 7.43 在 本 地 查看 样 例 输出 
也 可 以 在 分 布 式 文件 系统 中 直接 查看 样 例 输出 信息 ,在 终端 输入 如 下 代码 : 


bin/hdfs dfs - cat output/ * 


如 图 7.44 所 示 。 


hadoop@localhost:~/ 桌 面 /hadoop-2.7.1 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) 终端 (T) 帮助 (H) 
|hadoop@localhost hadoop-2.7.1]$ bin/hdfs dfs -cat output/* 
lo dfs, audit. Logger 


la .class 
g . server, namenode. 

2 . period 

B . audit. log. maxfilesize 

B „audit, Log. maxbackupindex 
ñ 

i 

" 

i 

ñ 

1 


dfsmetrics.log 

dfsadmin 

dfs. servers 

dfs. replication 

dfs. file 
hadoop@localhost hadoop-2.7.1]$ 


7.44 在 分 布 式 文件 系统 中 查看 样 例 输出 


进行 完 所 有 的 工作 之 后 ,可 以 将 守护 进程 终止 。 在 终端 输入 如 下 代码 : 


sbin/stop - dfs. sh 


该 过 程 会 要 求 输入 密码 ,输入 正确 的 用 户 密码 ,如 图 7.45 所 示 。 
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hadoopiocalhost:-/Xili /hadoop-2.7.1 


文件 (F) 编辑 (E) 查看 (V) 搜索 (5) HRT) 帮助 (H) 
Lhadoop@localhost hadoop-2.7.1|$ sbin/stop-dfs.sh 
Stopping namenodes on [localhost] 

Ihadoopal ocalhost' s password: 

ocalhost: stopping namenode 

Ihadoop@l ocalhost' s password: 

ocalhost: stopping datanode 

|stopping secondary namenodes [0.0.0.0] 
hadoop&O, 0,0.0' s password: 

.0.0.0: stopping secondarynamenode 

| hadoop&Localhost hadoop-2.7.1]$ M 


图 7.45 终止 守护 进程 


本 书 的 一 些 章节 最 初 以 文章 的 形式 发 表 在 IBM 的 developerWorks 中 国 网 站 Cibm. 
com/developerworks/cn/) 上 。 

developerWorks 中 国 网 站 作为 IBM 全 球 开 发 者 策略 的 一 个 重要 环节 ,于 2001 4E 2 月 
发 布 ,是 IBM 面向 中 国 开发 者 的 重要 窗口 。 它 面向 IT 行业 ,提供 了 专注 于 IBM 软件 产品 
和 开放 标准 技术 的 技术 内 容 .评估 软件 和 社区 讨论 的 最 全 面 的 技术 资源 。 网 站 提供 的 庞大 
的 、 容 易 搜索 的 文章 和 教程 文档 库 (ibm. com/developerworks/cn/library/) ,可 帮助 您 快速 
掌握 有 助 您 职业 发 展 的 重要 技能 。 

developer Works 可 让 您 轻松 地 构建 帮助 您 解决 问题 和 获得 职业 提升 的 职业 关系 网 。 
借助 developerWorks 社区 (ibm. com/developerworks/mydeveloperworks/connect), 您 
能 够 : 

。 加 入 这 个 包含 全 球 数 百 万 IT 专业 人 员 的 网 络 , 寻 找 您 想 要 认识 的 同行 和 专家 。 

* 通过 developerWorks 群 组 .博客 和 论坛 进行 讨论 与 协作 ,获取 理想 解决 方案 ,从 而 

解决 您 与 同行 所 面临 的 棘手 技术 挑战 。 
developerWorks 可 帮助 您 在 全 球 同行 网 络 中 得 到 认可 。 
* 使 用 developerWorks 的 入门 资源 ,增强 您 在 快速 变化 的 IT 竞争 领域 中 所 需 的 


技能 。 
。 参与 围绕 IBM 软件 和 开放 技术 标准 的 大 量 论 坛 ,展示 您 的 丰富 经 验 和 知识 。 
。 使 用 developerWorks 博客 表达 您 的 见解 和 观点 。 


。 了 解 技术 社区 中 的 非 IBM 的 思想 领袖 ,也 称 为 IBM Champions。 发 现 、 联 系 或 推荐 
IBM Champion (ibm. com/developerworks/champion/) , ,了 解 他 们 如 何 最 有 效 地 使 

] IBM 软件 .解决 方案 和 服务 。 

* 在 developerWorks 上 发 表 技术 内 容 , 让 您 的 发 布 成 果 获 得 正式 承认 。 

有 关 developerWorks 的 更 多 信息 ,请 访问 ibm. com/developerworks/cn/ 并 开始 探索 。 
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